【原】研究数据统计的大变天？854位科学家在Nature头条声讨p值的统计意义

百味科研芝士 2019-04-13

展开全文

本文首发于 ”百味科研芝士“ 微信公众号，转载请注明：百味科研芝士，Focus科研人的百味需求

一般来说，我们的学术研究里，需要统计学意义，以证实数据在实验/对照组的差异，当p<0.05或者p<0.01，就可认为该研究有统计意义，该研究在实验条件下，出现了不一样的情况。那么，一些研究的p>0.5，就可认为无差异，事实也是这样？

一、Nature头条：

2019年3月20日，Nature杂志官网发表了一篇名为《科学家们起来反对统计学意义》（Scientists rise up against statistical significance）的文章，并以封面头条挂在杂志官网。该文列出了854名已公开表明支持态度的科学家名单，并号召科学家放弃以p值为判断标准的“统计学意义”。

（《科学家们起来反对统计学意义》的前三位作者）

一直以来，前人的经验告诉我们，统计学上无显着性的结果并不能“证明”零假设（实验/对照组之间没有差异或治疗对某些测量结果无影响）。事实上，统计上显着的结果也没有“证明”某些其他假设。因此，作者以该文呼吁科学家不可继续成为这些误解的牺牲品。

该文一出，瞬间引爆整个学术界。

活跃在某特的科学家相继表态，有赞同，有质疑，也有辩证看待，更称“p值已成为干预着研究的意义解读的暴君”。

走在十字路口的今天，对于p值的讨论也愈发激烈。一方面，p值仍然被一些研究者错误地作为衡量临床效应大小的标准，而事实上两者并没有什么一一对应的关系；另一方面，样本量对p值的影响极大，对于拥有几十万级别以上的样本量的研究而言，获得一个p<0.05的结果也恐怕也只是走个流程。

（关于P值的争议）

几个大杂志期刊也没有闲着，纷纷加入p值的谈论当中。从引用的情况来看，Nature并未当天的首发，但是鉴于Nature的地位，成了引发讨论的关键爆点。

可见，关于p值的讨论已在学术界掀起大浪。

二、P值的争议史

而事实上，关于P值的争议，在1988年，一篇《The end of p value？》就已开始对其提出质疑。

直至2016年，一篇发表在JAMA的基于超过1200万篇MEDLINE摘要和80万篇PubMed Central（PMC）全文（包含摘要）的自动文本挖掘的文献，才比较系统地去阐述了过去25年（1990-2015年）生物医学文献中的p值变化。

研究者发现，从1990年到2014年，MEDLINE摘要中p值出现比例已从7.3%上升到15.6%，其中随机对照试验首位，摘要中报告p值的比例达54.8％(95％CI, 54.0％ - 55.6％)，临床试验其次，；而Meta分析类增长速度最快，与1990年的情况相比，几乎增加了三倍，达到35.7％(95％CI, 34.5％-37.0％)。此外，有p值的摘要和全文中，96%会至少报告1个“统计学显著”的结果。

可见，随着时间的推移，越来越多的科学论文在研究结果中报告了p值，且出现频率最高的是“p<0.05或p<0.001”。

紧接着，2016年，针对p值的过分强调，美国统计学会（ASA）发布了一个关于统计意义和p值的声明，但是，这只是份声明，并无实际操作空间。

当ASA的声明沦为一张废纸，而P值目前存在的问题尚未解决，因此，一个简单粗暴的方法：降低我们传统认为的“显著性水平”——P<0.05，被提上日程。2017年7月，Nature就把显著性水平从P<0.05降到P<0.005对受访者进行调查时，发现表示支持的比例竟高达69%。

似乎大伙并不抗拒这样的改变。但是，不可否认的是，持反对的比例还是高达31%。至于理由：一是研究成本，显著性水平的降低会增大研究所需样本量；二是辩证看待，鉴于科学研究的多元化属性，认为单一P值评论研究的价值会阻碍研究的进展。

当然，还有一些更为极端的做法。，如Political Analysis，Basic and Applied Social Psychology杂志直接宣布禁用p值，可当被Nature反问“没了P值怎么办？”时，杂志社也只有无奈。

顺着时间点，回到Nature头条。该文发现，当区间估计包括严重的风险增加时，得出认为统计上不显着的结果的“无关联”结论是荒谬的。声称这些结果与显示相同观察效果的早期结果形成对比同样荒谬。然而，这些常见的做法表明，依赖统计显着性的阈值会误导我们。

该文还表示，这种类似的错误很普遍。对数百篇文章的调查发现，统计上不显着的结果被解释为在一半左右表示“无差异”或“无影响”。

从1988年的《The end of p value？》到最近的Nature头条、854位科学家联合署名的《Scientists rise up against statistical significance》，30年的争议，到现在都还没有一个大家都认可的定论，那么，我们不禁要问，这些关于p值的争议是源于哪，是科学研究进展的需要，还是p值本身？

那我们不妨稍回顾下p值本身。

三、p值与假设检验、显著水平的关系

说到p值，就离不开假设检验、显著水平（a）。

1. 假设检验

以抛硬币为例。

你说你的硬币是公平的，也就是“花”和“字”出现的概率是差不多的。然后，你想和我打赌，而我提出要检查下你的硬币到底是不是公平的，万一是两面“花”怎么办？电影里面不是经常出现这样的桥段？

后来我们提出了折衷的方案，抛几次硬币，看看结果是不是公平的。

扔了两次，均是“花”朝上，几率是0.5*0.5=0.25，也属正常，继续扔；后扔了四次，均是“花”朝上，几率是0.5⁴=0.0625，虽感觉有点不正常，但不排除是运气，继续扔；

再扔了十次，均是“花”朝上，那我就认为你这枚硬币很有可能不是公平的。

这就是假设检验：

你提出假设：说你的硬币是公平的

我提出要检验你的假设：扔十次，看实验的结果是不是和你的假设相符。

2. p值

接着上面来。为了完成假设检验，需要先定义一个概念：p值。

根据上面的描述，这里假设检验的思路就是：

假设：硬币是公平的

检验：认为假设是成立的，然后扔十次，看结果与假设是否相符

反复扔硬币应该符合二项分布（这就不解释了），也就是：

其中，n代表扔硬币的次数，u代表“花”朝上的概率。那么，在我们认为硬币是公平的前提下，扔10次硬币应该符合以下分布：

在假如硬币是公平的情况下的分布图上，我扔了十次之后得到的结果是，有八次正面：

这个时候有个数学大佬就出来定义了一个称为P值（p-value)的概念：把八次正面的概率，与更极端的九次正面、十次正面的概率加起来：

得到的就是（单侧P值）：

其实，出现两次正面、一次正面、零次正面的概率也是很极端的，加起来，就是双侧P值：

3. 为什么要把更极端的情况加起来？

根据扔硬币这个例子，可能你会觉得，我知道八次正面出现不正常就行了，干嘛要把九次、十次加起来？

我觉得有这么一个现实原因，比如我要扔1000次硬币来测试假设是否正确。

根据中心极限定理，我们知道，可以用正态分布来近似，如得到了530次正面，用正态分布来计算就比较简单。

但是，对于正态分布，我没有办法算单点的概率（连续分布单点概率为0），我只能取一个区间来算极限，所以就取530以及更极端的点组成的区间：

事实上，P值是我们通过转换得到的一个值，在假设检验中，我们得到的t值，z值，F值都可以转换为P值，比如Z=1.96，我们就可以通过查表或者统计软件计算得到对应的P=0.05。那么P值是什么意思呢？用书上的定义来讲，P值是当原假设为真的时候，得到当前结果以及更极端结果的概率。

另外，关于P值，说明下：取单侧还是双侧，取决于你的应用；什么叫做更极端的点，也取决于你的应用。

4. 显著水平

继续抛硬币。扔10次硬币，要是出现7次正面，可以认为“硬币是不公平的”，还是9次正面之后我才能确认“硬币是不公平的”？这是一个较为主观的标准。

我们一般认为p≤005，就可以认为假设是不正确的。因此，0.05这个标准就是显著水平，当然选择多少作为显著水平也是主观的。

比如，上面的扔硬币的例子，如果取单侧P值，那么根据我们的计算，如果扔10次出现9次正面：

我们可以认为刚开始的假设错的很“显著”，也就是“硬币是不公平的”。

若扔10次，出现8次正面：

事实上，这个和我们的显著水平是一样的啊，我们也可拒绝假设，只是没有那么“显著”了。

再举个例子：

在这个右侧检验里，如果α水平设定为0.05，那么区域B面积为0.05。所以在这个假设检验里，若原假设为真，则我们一次抽样结果只有5%的可能性落在区域B里，而依据小概率事件，我们可认为这样的小概率结果不会在一次抽样中发生。如果它发生了，那么就说明我们所检验的样本并不来自于这个总体，所以我们拒绝原假设。

当P<α，表达的是，在一次抽样中出现当前结果及更极端结果的可能性比我们认为的在一次抽样中不可能发生的小概率事件的概率更小，即我们的观察结果比我们设定的拒绝程度更加极端。因此，在样本量不变的情况下，P值比α水平越小，我们越有信心可认为这个样本不属于原假设分布代表的总体，则越有信心拒绝原假设。

（本文的第三部分主要引用了马同学的“如何理解假设检验、P值？”和胡传鹏的“统计知识 | 谈谈P值和α水平”）

四、造成统计意义的误解，是p值，还是我们自身？

事实上，很多人会把P值当作我们拒绝原假设的犯错概率，但其实拒绝原假设犯错属于一类错误。错误的概率是我们的α，P值只是我们根据一次抽样结果计算出来的值。这就好比我们设定超速的标准为120km/h，而我们探测到n辆汽车的平均时速为110km/h，但我们不能因此就认为超速标准为110km/h。

在2016年发表在JAMA的文章中，研究者分析了MEDLINE摘要和报告中报道的p值，在1990年至2015年的PMC文章中，几乎所有的摘要和p值的文章报告了统计学上显着的结果。该文指出，文章应该包括置信区间和不确定性指标，而不是报告孤立的p值。

紧接着，“Don’t” Is Not Enough.（The American Statistician : Statistical Inference in the 21st Century: A World Beyond p < 0.05）事实上，关于p值，该文给出了以下几点：

· 不要仅根据关联或效应是否具有“统计学意义”（即p值超过某个阈值，如p<0.05）得出结论。

· 不要仅仅因为它具有统计意义而认为存在关联或效应。

· 不要仅仅因为它没有统计学意义而认为缺乏关联或效应。

· 不要相信你的p值给出了机会单独产生观察到的关联或效应或者你的检验假设为真的概率的概率。

· 基于统计显着性（或缺乏统计显着性），不要对科学或实践重要性做任何结论。

知道什么与p值无关确实是必要的，但这还不够。

Image result for p value misunderstand

（图源https://larspsyll./2013/03/19/misunderstanding-the-p-value-here-we-go-again/）

而在本文重点关注的Nature关于p值讨论的头条，先是表达了几个意思：一是

以单一p值为判断标准的统计意义对科学界和那些依赖科学建议的人造成了很大的危害；二是在确定其确定性的同时，也应在每项研究中从多个角度考虑不确定性，以得出更为客观的结论。三是丢弃认知偏见，把结果分成“统计显著性”和“统计非显著性”，这不是一种正确的科学研究思维。

同时指出，期刊编辑们的基于p值的评判标准，鼓励研究人员选择一些对于某些期望的结果具有统计显著性(仅为发表文章用途)，或者对于不期望的结果没有统计显著性，如药物的潜在副作用，从而导致研究无意义的误判。

Related image

（图源https://www./blog/2016/08/02/where-have-all-the-statisticians-gone-big-data-lessons-for-us-all/）

而关于退休的统计意义，作者希望是个什么样的？

第一，希望作者的方法部分和数据列表更加详细和细致，强调估计和它们的不确定性。例如通过明确地讨论它们的间隔的下限和上限。当报告P值时，它们将以合理的精度给出（例如，P= 0.021或P= 0.13），而不是二元不等式（P<0.05或P>0.05）。解释或发布结果的决定不会基于统计阈值。人们花在统计软件上的时间会更少，而且更多的时间在思考。

第二，退出统计学意义，监测文献中的统计滥用应该是科学界的一个持续优先事项。滥用统计意义对科学界和依赖科学建议的人造成了很大的伤害。p值，区间和其他统计测量都有它们的位置，但现在是退休统计意义的时候了。

最后，作者强调，依据退休统计意义的呼吁，想听到的是，是或否的决定。但对于监管，政策和商业环境中经常需要的选择，基于所有潜在后果的成本，收益和可能性的决策总是优于仅基于统计显着性的决策。

所以，你会做出哪个决定，是，OR否？

Related image

（图源https://www./statistical-significance-for-cro/）

参考资料：

1. Scientists rise up against statistical significance.Nature 567, 305–307 (2019)

2. The end of the p value?. Br Heart J,1988;60:177-80

3. Evolution of Reporting P Values in the Biomedical Literature, 1990-2015.JAMA. 2016 Mar 15;315(11):1141-8

4. https://www./news/psychology-journal-bans-p-values-1.17001

5. https:///journals/jama/article-abstract/2676503

6. https://mp.weixin.qq.com/s/tmlaB4nwK0EPxaAmsIVScA