一个源于1925年的错误，正在给现代科学制造麻烦

懒人葛优瘫 2017-08-22

展开全文

P值是研究者们最爱的统计指标之一，许多科学领域中的研究结果的意义均是由P值来判断的。它们被用来证明或驳回一个“零假设”：通常假定所测试的效果并不存在。当P值越小，该实验结果是由纯粹的偶然所造成的可能性就越小。

然而现在，它在科学界的地位岌岌可危。许多研究者指出，P值远没有众多科学者想象的那么可靠。

P值为何有了跌下神坛的迹象？这得从P值是如何诞生的说起。

一个源于1925年的错误，正在给现代科学制造麻烦

1908年，Guinness brewer William Gosset以笔名”student”发表了一篇在统计领域具有革命性影响的文章《平均数的规律误差》(“The Probable Error of the Mean”)。

Gosset曾在啤酒厂工作，经常研究诸如啤酒糖含量等因素对啤酒成分的影响，由于样本采集的有限性，他通常只能以小样本数来进行统计平均，不过在这研究的过程中，他发现小样本统计平均结果不满足他一开始认为的高斯分布。为了明白平均数精度与样本数的关系，Gosset尝试着去计算不同样本尺寸下的平均数精度，而这一问题也正是论文的研究核心。

他计算得到的结果包含在了他的T-table分布表中，而现在一般只要是接触过统计课程的人都会知道T分布，即用来描述不同样本数对于统计概率的影响，当样本数足够大的时候，就等同于标准正态分布(高斯分布)。

一个源于1925年的错误，正在给现代科学制造麻烦

虽然之后Gosset的天才式研究发现并未立刻得到重视，但是少部分的统计学家开始注意到这一研究结果的重要性。其中的一个年轻统计学家R.A. Fisher，相信Gosset的研究结果或许可以用来验证两组不同数据间是否具有统计显著性（即现在统计上的t检验），这个年轻人不会想到不久后他将可能成为20世纪统计学界最具影响力的人。

1925年，Fisher发表了著作《研究工作者的统计方法》，他在这本具有开创性意义的的书中解释了统计显著性的概念。Fisher带着一些武断性的选择α=0.05的概率值来衡量是否具有统计显著性，当 p值（统计学术语，原假设成立时得到与样本相同或者更极端结果的概率，P值越小，拒绝原假设的理由越充分，表明结果越显著）小于0.05时，我们拒绝原假设。

比如，一位研究人员想要确定一种新的教学方法是否有效，他可以选取一组新教学方案教学的学生和普通教学方案的学生的学习成绩做对比。如果接受新方法的学生的分数比那些没有接受新方法的学生的分数高出5%的机率（p值），那么Fisher就认为新教学方案是有效的。不过后来证明Fisher武断的选择α=0.05的概率值来衡量是否具有统计意义的逻辑是有缺陷的。

一个多世纪后，许多研究者认为Fisher选择α=0.05诱发了一个科学上的危机。诸如心理学、经济学和医学等学科上的实验结果，如果使用α=0.05作为判定阈值的话，那么将导致实验结论错误。

发表在《科学》杂志上的一项大型研究发现，对三个心理学主要期刊发表的结果进行重复，只有不到一半的研究结果能够被验证。而另一项对经济领域的研究发现，当重复经济学实验时，大约有40%的实验结果消失不见了。不过α=0.05的阈值并非完全是这种实验大比例不可重复现象的原因，归根结底实验过程中缺乏透明度才是这一现象的罪魁祸首。

一个源于1925年的错误，正在给现代科学制造麻烦

那么接下来怎么办呢？由72位杰出的统计学家、经济学家、心理学家和医学研究人员撰写的一项新提案给出了一个简单的方案，即使用α=0.005来作为新的阈值。提案的主要作者、南加州大学行为经济学家Daniel Benjamin说到：“这一种想法的时机已经成熟，有广泛的潜在支持，希望更改我们在统计意义上使用的语言并收紧标准。”

提案作者们的具体建议是，对于p值在0.05到0.005范围内的结果可以认为是一种“暗示性”的证据，并且那些达到0.005的结果可以被认为是“显著的”（拒绝原假设是显著的）。

Benjamin说:“虽然这样直接使用α=0.005解决方案并不完美，但已经可以在短期内做很多事。”正如提案的研究所表明的，使用α=0.005解决方案可以减少一半的经济学和心理学实验上的错误结果。

Benjamin承认选择α=0.005也带有一点武断性质，并同他的同事也讨论过其他更低的阈值，但是他认为α=0.005是符合逻辑的。Benjamin补充到，对于0.05阈值的共同解释——结果（原假设）有95%的可能性是正确的，但使用更先进的统计技术发现，这95%的机率实际上是更接近于p值等于0.005。

这篇提案有两个目的：第一，作者们希望学术期刊出版商采用新的统计标准；第二，他们更希望研究人员选择采用这种统计语言。Benjamin指出在遗传学和高能物理两个领域中的P值阈值已经被降低，对应领域的研究者认为改变阈值对于确保结果的可靠性是有必要的。阈值从0.05更改到0.005只能挽救医学，心理学和经济学领域部分的研究结果，Benjamin的团队更希望医学研究人员、经济学家和心理学家能去正视现今他们领域中出现的科研诚信危机。