四格表统计中该用Fisher确切概率法还是卡方检验？

渐近故乡时 2015-07-01

展开全文

　　前段时间帮一位朋友处理了一篇论文的数据，遇见一个比较典型的问题，与大家分享下。

　　为便于说明情况，我将这位朋友做的课题简要介绍下：比较两种方法（方法A和方法B）治疗某种疾病的效果，设计的细节就不再赘述了。最终研究者发现29例患者接受了A法治疗，15例有效；27位患者接受了B法治疗，21位有效。如下表所示：

　　对于此类数据的处理，相信大多数同行都会异口同声地说应该用卡方检验。的确，这种典型的四格表，且没有任何配对设计的元素，理论上讲是可以用卡方检验观察两个变量之间是否有关联的。经卡方检验后，得出P等0.042（具体的过程略，感兴趣者可阅读后续章节中关于如何在GraphPad Prism中进行卡方检验的内容）。于是研究者认定：B法优于A法！

　　这个结论看起来是成立的，但事实真是如此吗？

　　如果我们换一种统计方法，用Fisher确切概率法，会得到什么结果呢？笔者算了一下，P=0.054。这下问题来了：卡方检验和Fisher确切概率法的结果，该取哪一个呢？

　　统计学教科书上通常会说：如果总样本量大于40，最小理论频数大于5，就应该用卡方检验；如果总样本量大于40，最小理论频数介于1和5之间，就应该使用卡方检验的校正公式；如果总样本量小于40，或（注意这个或字）最小理论频数小于1，就应该用Fisher确切概率法。在本案例中，总样本量为56，最小理论频数为：27×20/56=9.64，明显是大于5的，因此应采用卡方检验。

　　这里穿插一段关于最小理论频数的计算方法，实际上就是最小的横排合计数据和最小的纵列合计数据的乘积再除以总样本量。在本案例中，横排合计数据只有两个（29和27），纵列合计数据也只有两个（36和20），总样本量是56，因此最小理论频数就是27×20/56=9.64。在多行多列表格中寻找最小理论频数的方法与此类似。

　　实际上，在本案子里中，笔者认为应该采用Fisher确切概率法的结果，即两组治疗效果之间的差异无统计学意义。教科书上虽然说明了如果总样本量大于40，最小理论频数大于5，就应该用卡方检验，但部分教科书会遗漏一句很关键的话，即“如果采用卡方检验得到的P值在0.05附近时，应该用Fisher确切概率法”。本案例中，卡方检验得到的P值是0.042，属于0.05附近，因此应采用Fisher确切概率法进行统计。实际上，对于未进行配对的四格表的卡方检验，任何时候都应该以Fisher确切概率法结果为准。

　　也许有的读者会说：为什么发表的SCI论文，教科书上都说卡方检验呢？笔者分析主要是以下原因：

　　第一，卡方检验最大的优势在于计算比较简便，不需要任何计算器，徒手都能算出卡方值，然后到卡方界值表中查找相应的结果即可。相比之下，Fisher确切概率法的计算要相对复杂些，尤其是样本量很大时。

　　第二，如果差异很大，采用卡方检验和Fisher确切概率法得到的结果是相差甚小。比如卡方检验得到P=0.00025，而Fisher确切概率法可能会得到P=0.00026。即不管采用何种方法，不会改变研究结论。

　　第三，在发明统计软件以前，人们无法用Fisher确切概率法分析数据，且已经习惯于用卡方检验，久而久之，认为卡方检验才是正确的检验的方法。熟不知，在统计软件发明后，Fisher确切概率法的计算已经是十分简单的事情了。

　　既然历史和现实难免产生摩擦，应该如何权衡呢？在发表论文时，应该如何描述自己的统计学方法，如何进行统计学分析呢？笔者建议采用以下策略：

　　第一，在论文的统计学中描述中，统一采用“the differences between rates were tested by χ2 or Fisher exact tests, if appropriate”的阐述。之所以采用这样的阐述，实属无奈之举，因为卡方检验对研究人员的影响太深刻了，如果作者不写卡方检验，可能会遭到审稿专家质疑，特别是自己还不是学术界大腕时。

　　第二，在进行统计学处理时，应同时进行卡方检验和Fisher确切概率法进行统计。如果出现上述“相互矛盾”的情况，应以Fisher确切概率法结果为准。