【原】P<0.05就万事大吉了吗？别天真了！统计功效你造吗？

解螺旋 2020-08-27

展开全文

作者：解螺旋.麦子

如需转载请注明来源：解螺旋·医生科研助手

导语

写实验方案的时候，有没有一个问题让你头大——需要多少样本量才好？随便捏一个看起来不错的数，还是要怎样去计算？如果这个问题没有困扰到你，要么说明你已炉火纯青毫不费力，要么当心你的实验死得不明不白——就算最后做出来P<0.05，也有可能白做了（不要问我怎么知道的=_=）。

虽然往事不堪回首，但后来听说不仅是青涩的研究僧，有些在实验室里摸爬滚打了好几年的博士后都未必能处理好，我好像又舒心一点了。

做统计，无非就是要看看我们的实验得出的结果是否是一个真正的新发现，选取的样本能在多大程度上代表整体。然而，要从数据中得到一个有说服力的结论，并不仅是追求p<0.05就可以了，我们还要考虑统计功效（Statistical Power），其中样本量就是很重要的一个因素。低功效的实验更容易得出虚假的结果，也就是说，你那个P<0.05没啥卵用。

统计功效是个什么鬼？

统计功效，简单说就是真理能被发现的可能性。就像胰岛素能降低血糖这事是真实存在的，但人类能发现它的概率是多少？如果统计功效是0.8，就是说人类有80%的概率能发现它。

它的数学定义可用一个公式来概括，统计功效=1-β，此处的β是指第二类错误概率，即假阴性错误概率。还用那个胰岛素的例子，就是说我实验做得不好，统计功效太低，最后我以为胰岛素和降血糖没有关联。这个结果显然是错的，我发生这种错误的概率就是β。从公式可以看出，实验的统计功效越高，β就越低，就意味着我们就越能避免这种错误。所以要在设计实验设计的时候就注意控制统计功效。

影响统计功效的因素有很多，主要的有3个：效应量、样本量和α水平。

1.效应量（d）

两组间差异的效应量由以下公式定义：

μ1：第一组的平均值

μ2：第二组的平均值

σ：总体标准差

如图中案例A和案例B的情况，显然各组平均值的差值(Δμ)越高，或标准差越低，都越容易检测到组间差异（有统计学意义的结果）。效应量越大，统计功效就越大。

2. 样本量

显然，从整体中提取的样本越多，样本就越能代表整体，计算的效应量也越精确。但效应量是样本固有特性，样本量则是可以由自己掌握的，可以通过扩大样本量来提高实验的统计功效。

3. α水平

α水平也称显著性水平，即第二类错误概率，约定俗成地把它控制在0.05。如果把显著性水平降至0.01，实验能检测出差异的概率就更低了，也就是说，要是当p=0.03，我也只好说这两组没有统计学差异。可见，p<0.01比p<0.05更难达到。

统计学差异有多靠谱？

统计功效也深深地影响着统计学差异的可靠性。统计功效越高的实验意味着，它观察到的统计学差异（P<0.05）能反映真实情况的可能性越大。这可以用阳性预测值（positive predictive value，PPV）来说明：

1 – β：统计功效，β为第二类错误概率。

α：第一类错误概率，通常设为0.05。

R：真阳性和假阳性的比例的比值。

比如说，某种试剂用来定性检测某蛋白，真相是，在检测结果为阳性的样本中，有20%的真阳性和80%的假阳性，那么R就是0.20/0.80=0.25。你和小明分别用它做了实验。你俩都得到了这个令人欣喜的结果，然而你的统计功效是0.8，而小明的统计功效是0.2。按照α=0.05来看，你的实验的PPV就是：

也就是说，你的实验结果有80%的可能接近真相。

而小明的实验的PPV：

虽然他也做出了P<0.05的结果，但不幸这个实验只有50%的概率接近真相，我仍然可以说小明的实验质量不高，我不太信任他的结果。

所以说，当统计功效比较低时，p值就显得虚弱无力，这个实验就可能没什么意义。

那么，怎样才能提高我们实验的统计功效呢？上面说了，在3大主要影响因素中，只有样本量是我们可以控制的。虽说样本量越大，统计功效越高，但是不要忘了一个很现实的限制因素：钱！！！

我想做900例，基金委就会想，900例要花多少钱，我凭什么给你？有做这么多的必要吗？这时候你就用样本量计算公式糊他一脸。

统计功效分析：有免费工具~

公式？你是不是已经感觉到凛烈的寒风扑面而来……

放心好了，现在有很多样本量计算工具都是免费哒~不过我觉得最好用的还是这个在线工具：www.powerandsamplesize.com/Calculators/，它不仅能给你轻松算出需要的样本量，还能给你公式，直接贴到标书上！它还提供R语言代码，有兴趣也可以参悟一下。

打开网页如下：

左边那一列导航里，除第一栏是网站和用法的简介外，下面有30种不同实验类型的样本量计算器，分成几大类：单样本均数、两样本均数比较、K个样本均数比较、单个率、两样本率比较、配对率比较、K个样本率比较、时间-事件数据比较，OR值比较，SCSS的相对发病率、其他。

比如我要比较两种药物A和B对血清中P蛋白浓度的影响，在小样本的预实验中（或查文献得知，总之我们需要知道这个参数），A药物治疗后P蛋白下降了32.3ug/L，B药物组下降了38.6ug/L，总体标准差为7.2ug/L，现在我想扩大实验，需要多大样本呢？

在导航栏选择“Compare 2 Means: 2-Sample, 2-Sided Equality”，在左上角的Calculate下拉框里选择Sample Size：

然后看Power那一栏，我希望自己的实验有80%的统计功效，所以填0.8，第一类错误概率，约定俗成填5%，下边是按预实验结果或文献信息分别填上各组均值、总体标准差，Sampling Ratio填1，即两组样本量相等。最后点Calculate，就可以在左上的绿色框中看到，B组需要21人，两组一共就是42人，再考虑下80%的依从率，凑个整大概就入组60例吧~呃，想要的900例没有了……突然省了好多事。

右边那个曲线，纵坐标是样本量，横坐标是可以选择的，连坐标范围都可以调整。本图显示的是A组平均值，可以贴心地告诉你，均值浮动的范围内样本量会怎样变化。更换横坐标还可以看到样本量随B组平均值、总体标准差、取样比例的变化。三条曲线，分别是统计功效为70%、80%、90%时的样本量变化，提供多种参考。

继续拉到页面下方：公式！！！

这个公式只要贴到标书上就好了~每种实验的计算方法都是不一样的，要是都背下来多痛苦啊。

再往下就是R语言代码，有兴趣就看看呗。

如果你的实验要检测多个指标怎么办？那就每个指标都算一遍，取最大值，显然要求最大的一个指标都满足了，其他肯定不在话下。

这个网站还有另一个用处，就是当我们读到一篇文献，不知道它的结果有多靠谱，那么就在左上刚才我们选择Sample Size的地方，换成Power，然后在下边各栏填上实验的各个参数，最后计算统计功效，也就可以作为是否相信这个研究结果的参考。

所以，并不是P<0.05就可以了，科研的水很深啊骚年。

参考资料：

1．How Many Data Points Do I Need For My Experiment?