分享

​这么多人反对P<0.05,P值将何去何从?

 解螺旋 2020-08-27

作者:麦子

转载请注明:解螺旋·临床医生科研成长平台


“P<0.05”、“同行评审”、“影响因子”可谓科研界的三大牛皮癣,大家对它们怨声载道,可喷或不喷,它们就在那里,不悲不喜。

不过P<0.05和那俩不太一样,那俩还有不少支持者,P值则真正饱受诟病,而且2015年时有一家心理学杂志(Basic and Applied Social Psychology, BASP)真的对它“下手”了,再也不发带P值的文章了。这在当时也引起了不小的骚动。

BASP的编辑在面对Nature的采访时还表示,很高兴能看到假设检验从所有科研出版物上消失,但还不知道用什么来取代它……

不能中二更多!!在建立好新房子之前就急着推倒旧房子,那只好沦为无家可归,这本杂志就这样成为抛弃P值试验的小白鼠。

还有一种观点认为,要么P值界定显著性的门槛就别用均码的了,各人根据自己课题的具体情况,自己设个P的阈值。荷兰埃因霍温科技大学的实验心理学家Daniel Lakens就是其倡导者之一。

Lakens说,研究者们应该在开始采集数据之前,就为自己的实验选择一个P的阈值,并给出解释。选择P值阈值要考虑的因素主要有,该研究所带来的潜在新发现将有多大影响,多么惊艳。还可以先写一篇该课题的注册报告,论述研究方法及数据分析方案,对该阈值的选择进行解释,经同行评审发表后,再开展正式实验。

不过这也带来另一种担忧,即P值会不会彻底沦为玄学。Lakens却自信地认为,人为操纵的P值阈值跟认真校正的P值阈值还是很明显的。然而考虑到欢乐的科研汪们一本正经胡说八道的本事,这种自信显得有点脆弱。

更多人则支持将P值阈值从现行的0.05降到0.005。今年七月,Nature对其读者做了个调查,是否支持将P值阈值降低,结果6938人中竟有69%人表示支持。

惊不惊喜,意不意外!很多同学觉得P < 0.05已经很难达到了,再要降低,提高门槛,可不要了老命?

其实学者们更为担心的是实验可重复性的问题。P < 0.05你就宣布这是个脱离了一时幸运的真正科学新发现,但门槛这么低就会有许多乌七八糟的东西撞上大运混了进来。当你宣布的那个发现其实根本不是发现,别人重复不出来,多尴尬,多浪费经费。

近期,Nature Human Behaviour上发表了一篇文章,较深入地讨论了为什么提倡P值阈值要降到0.005,其作者团队来自多所名校的统计、心理、神经科学、生命科学、医学、经济、地球与环境、历史与哲学等等多个学科。

这篇文章提议,将P值阈值降至0.005,那些达到此阈值的才叫有显著意义(significant),而目前称为显著的P < 0.05者,只能称之为有提示意义(suggestive)。不过不建议将这个阈值用来宣称某结果属于新发现,也不作为评判现有研究结论的标准。另外,那些原本就更为严格的学科,比如基因组学和高能物理,就不要来凑这个热闹了。

为什么要选0.005?

其实不管选哪个值作为阈值,都是在I类错误和II类错误之间摇摆,现在因为大家觉得假阳性太多就要降低阈值,那就不担心假阴性增多么?要知道,现在已经有多少P > 0.05的研究没有发表出来,造成了发表偏倚(又称抽屉问题)。

答案当然是担心啊。但为什么仍要选择0.005,作者给出了两点理由。

第一,双尾P值为0.005对备择假设(H1)的支持力度,相当于贝叶斯因子(Bayes Factor, BF)14~26,这在传统贝叶斯学派中的证据强度被认为是“可靠”或“强”的。

贝叶斯因子是什么?

我们做完实验得到一个数据集Xobs,零假设是H0,备择假设是H1。现在通过对Xobs进行统计分析,得到P < 0.05便可拒绝H0,接受H1。而贝叶斯学派则是在已经发生Xobs的情况下,探讨会发生H0的概率,记做Pr(H0 | Xobs),同理可理解Pr(H1 | Xobs)。

还有一个概念叫先验概率,即没有发生Xobs的时候,就我们原有的知识来判断,会发生H1H0的概率分别记作Pr(H1)和Pr(H0)。则BF的定义公式如下:

* ≡ 是表示“定义为”的数学符号

可见BF受先验概率的影响。先验概率是怎么来的呢?“我们原有的知识”可以来自研究者本人的信念、经验,还有科学共识、同领域内相似研究所得的证据等。一些研究提示,对心理学和癌症研究来说,H1相对于H0的先验概率只有1:10。但显然这里面会有不确定成分的干扰,所以P值和BF并没有精准的对应关系。

单从BF来断定P值阈值显然不够,还要考虑我们最开始提出的那个问题,即假阳性率,也称假发现率。

这就是作者的第二个理由,P < 0.005时可把假阳性率降低至一个合理的范围。

ϕ表示H0实际为真(即不该拒绝)的概率,1 – β表示拒绝错误H0(即得出了符合事实的结论)的研究的统计功效,α为显著性阈值,则假阳性率大致可表示为:

先验概率也可表示为:

既然先验概率有波动,那么我们把它分割成几个水平的恒量,而α就是现在要探讨的0.05还是0.005,这样就可把假阳性率的计算式变成一个关于统计功效(1-β)的函数,画个图:

当先验概率分别取值为1:40、1:10、1:5时,观察不同统计功效的研究中,各P值阈值所宣布的“科学发现”其实是假阳性的概率。

可以看到,当先验概率1:10,P值阈值选为0.05时,不管统计功效多少,这些研究所宣称的科学发现都有1/3可能是假的。当P值阈值为0.005时,假阳性率就低了许多。

你的质疑,作者们都想好了

降低P值可能提高假阴性,也需要更多的样本量(增加约70%)才能达到原有的统计功效,但作者们认为,降低假阳性率可以避免更多的研究建立在不正确的科学发现之上,还是节约很多成本的,利大于弊。

诚然,降低P值阈值也不能解决由其他原因造成的假阳性问题,比如多重检验、P值操纵(P-hacking)、发表偏倚、统计功效低等等,自己的锅自己背。

至于是否不同的研究该用不同的P值,作者们也表示同意,像前文提到的基因组学,尤其是全基因组关联分析,十年前就把P值阈值挪到了5×10-8。P值的选择,可参考在特定研究领域中H0为真的先验概率、课题设计、犯I类错误和II类错误的相对成本等等。

至于P值所基于的假设检验(NHST)本身是否是好的统计方法,那反正也还没有能够达成共识的替代方案。

下个月,美国统计学协会(American Statistical Association, ASA)将会举办推断统计专题会,深入讨论这个问题。

参考资料:

1. Redefine statistical significance

2. https://www./news/one-size-fits-all-threshold-for-p-values-under-fire-1.22625

3. http://www./news/psychology-journal-bans-p-values-1.17001

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多