【原】【第二十一期·格物四】显著性检验：科学研究的调查员（宋书仪同学）

新用户8357TuwT 2023-07-18 发布于河南

展开全文

想象我们做一个实验，比如说是某种药物的活体实验，观察到了实验组的疗效强于对照组的现象——我们当然欢欣鼓舞。这个时候，突然浇下来一盆冷水：有个人宣称，他按照某本古书中记载的偏方念一种神奇的咒语，也获得了同样的疗效！难道我们要承认这些很扯的偏方和我们的宝贝成果不相上下吗？这个时候，一种叫显著性检验的东西就派上了用场：它能把我们的成果和奇怪的偏方区别开，证明我们的成果真有疗效，而那种偏方的成功纯属巧合。

提到显著性检验，首先要说到一个概念：“归为不可能法”——可以把它看作是模糊版的反证法，它的流程如下：

·假设零假设H——如上面的例子，在进行它的显著性检验之前，先做出“药物无效”的假设，即假设我们所研究的介入活动没有任何作用——为真

·若H为真，则得到某个结果O的可能性非常小（如药物在所有【假设是50个】样本中均展现出有疗效。假设这种疾病的痊愈率很高，比如90%，那么50个样本全部痊愈的概率为90%*90%*90%……（0.9的50次方）≈0.005，这种“巧合”发生的概率太低了；但对于那个民间偏方，可能在各次重复试验中，50个样本里每回都很随机的痊愈几个人，这却是很可能发生的事情，偏方大概率不起作用）

·但O是我们实际可以观察到的事实

·因此，H成立的可能性非常小（就是我们的成果无效的可能性很小，称作“结果具有显著性”）

另外再介绍一个概念：上述流程第二步中“得到某个结果的可能性”被称作“p值”，传统观念规定了一条划分显著性与非显著性的界限：p<0.05.一般若p<0.05，我们的成果就可以在一些科学类杂志上发表了。

虽然如此，顺利通过显著性检验的就都一定具有“显著性（有重要影响）”吗？当然不是。“显著性检验”这个名字真的很有误导性。需要注意的是，显著性检验是一种科研工具，而所有的科研工具都有一定的精度（乔丹·艾伦伯格《魔鬼数学》）。因此如果我们提高检验的精度，使检验更敏感，就能发现一些并不明显——实际也不怎么重要——的影响因素，通过显著性检验这件事能说明的只是二者具有统计学相关性而已。显著性检验的这种局限性也造成了不少问题：还是药物研发的例子，在临床试验进行到3期时才发现不对，推翻1、2期结论的例子不在少数，不少时间成本、人力、财力因此损失。

至于如何判断一个因素是否有真正意义上的“显著性”，有个办法是在显著性检验的基础上加上“置信区间”（它的计算太复杂，我也没搞懂，就不说了），它展现的是某个参数的真实值有一定概率落在测量结果的周围的程度，就是说，一系列顺利通过归为不可能法检验的命题与我们实际观察结果之间一致程度的合理范围，比如置信区间为[+2%,+20%]，而我们的观察结果中有15%与假设相符，则可以证明这个假设的效果存在（因为0不在置信区间内，比如得到的置信区间为[-5%,5%]，就能说明我们的介入手段完全无效），但不一定重要，可如果置信区间为[+9%,+11%]，介入手段的可信度就高了很多——它说明二者之间不仅具有相关性，效果一定存在，还说明这种效果一定很显著。

除了“不显著”之外，显著性检验还存在一个问题——这是归为不可能法所面临的问题：参照上文提到的检验流程，归为不可能法回答的实际上是“若（零假设）H为真，则得到（观测结果）O的概率是多少”，但我们做实验的真正目的是得到“若得到O，H为真的概率是多少”，注意，这两者是不同的！这涉及到“条件概率”，即“如果X，则Y的概率为…”，表示为P(X|Y)。显然，前者是P(H|O)，后者是P(O|H)，我们完全把它们搞混淆了。这是一件很可怕的事——P(X|Y)=0.001%，但P(Y|X)=99.99%的例子比比皆是。至于两者的关系，有一个公式：P(A|B)=P(B|A)*P(A)/P(B)（是不是有点熟悉？这就是大名鼎鼎“贝叶斯定理”）。有一个好消息：由公式不难看出，只要P(A)与P(B)差不多，显著性检验在这方面就没什么大问题。