分享

P<0.05就万事大吉了吗?别天真了!统计功效你造吗?

 解螺旋 2020-08-27


作者:解螺旋.麦子

如需转载请注明来源:解螺旋·医生科研助手

导语

写实验方案的时候,有没有一个问题让你头大——需要多少样本量才好?随便捏一个看起来不错的数,还是要怎样去计算?如果这个问题没有困扰到你,要么说明你已炉火纯青毫不费力,要么当心你的实验死得不明不白——就算最后做出来P<0.05,也有可能白做了(不要问我怎么知道的=_=)。

虽然往事不堪回首,但后来听说不仅是青涩的研究僧,有些在实验室里摸爬滚打了好几年的博士后都未必能处理好,我好像又舒心一点了。

做统计,无非就是要看看我们的实验得出的结果是否是一个真正的新发现,选取的样本能在多大程度上代表整体。然而,要从数据中得到一个有说服力的结论,并不仅是追求p<0.05就可以了,我们还要考虑统计功效(Statistical Power),其中样本量就是很重要的一个因素。低功效的实验更容易得出虚假的结果,也就是说,你那个P<0.05没啥卵用。

统计功效是个什么鬼?

统计功效,简单说就是真理能被发现的可能性。就像胰岛素能降低血糖这事是真实存在的,但人类能发现它的概率是多少?如果统计功效是0.8,就是说人类有80%的概率能发现它。

它的数学定义可用一个公式来概括,统计功效=1-β,此处的β是指第二类错误概率,即假阴性错误概率。还用那个胰岛素的例子,就是说我实验做得不好,统计功效太低,最后我以为胰岛素和降血糖没有关联。这个结果显然是错的,我发生这种错误的概率就是β。从公式可以看出,实验的统计功效越高,β就越低,就意味着我们就越能避免这种错误。所以要在设计实验设计的时候就注意控制统计功效。

影响统计功效的因素有很多,主要的有3个:效应量、样本量和α水平。

1.效应量(d)

两组间差异的效应量由以下公式定义:


μ1:第一组的平均值

μ2:第二组的平均值

σ:总体标准差


如图中案例A和案例B的情况,显然各组平均值的差值(Δμ)越高,或标准差越低,都越容易检测到组间差异(有统计学意义的结果)。效应量越大,统计功效就越大。

2. 样本量

显然,从整体中提取的样本越多,样本就越能代表整体,计算的效应量也越精确。但效应量是样本固有特性,样本量则是可以由自己掌握的,可以通过扩大样本量来提高实验的统计功效。

3. α水平

α水平也称显著性水平,即第二类错误概率,约定俗成地把它控制在0.05。如果把显著性水平降至0.01,实验能检测出差异的概率就更低了,也就是说,要是当p=0.03,我也只好说这两组没有统计学差异。可见,p<0.01比p<0.05更难达到。

统计学差异有多靠谱?

统计功效也深深地影响着统计学差异的可靠性。统计功效越高的实验意味着,它观察到的统计学差异(P<0.05)能反映真实情况的可能性越大。这可以用阳性预测值(positive predictive value,PPV)来说明:


1 – β:统计功效,β为第二类错误概率。

α:第一类错误概率,通常设为0.05。

R:真阳性和假阳性的比例的比值。

比如说,某种试剂用来定性检测某蛋白,真相是,在检测结果为阳性的样本中,有20%的真阳性和80%的假阳性,那么R就是0.20/0.80=0.25。你和小明分别用它做了实验。你俩都得到了这个令人欣喜的结果,然而你的统计功效是0.8,而小明的统计功效是0.2。按照α=0.05来看,你的实验的PPV就是:


也就是说,你的实验结果有80%的可能接近真相。

而小明的实验的PPV:


虽然他也做出了P<0.05的结果,但不幸这个实验只有50%的概率接近真相,我仍然可以说小明的实验质量不高,我不太信任他的结果。

所以说,当统计功效比较低时,p值就显得虚弱无力,这个实验就可能没什么意义。

那么,怎样才能提高我们实验的统计功效呢?上面说了,在3大主要影响因素中,只有样本量是我们可以控制的。虽说样本量越大,统计功效越高,但是不要忘了一个很现实的限制因素:钱!!!

我想做900例,基金委就会想,900例要花多少钱,我凭什么给你?有做这么多的必要吗?这时候你就用样本量计算公式糊他一脸。

统计功效分析:有免费工具~

公式?你是不是已经感觉到凛烈的寒风扑面而来……

放心好了,现在有很多样本量计算工具都是免费哒~不过我觉得最好用的还是这个在线工具:www.powerandsamplesize.com/Calculators/,它不仅能给你轻松算出需要的样本量,还能给你公式,直接贴到标书上!它还提供R语言代码,有兴趣也可以参悟一下。

打开网页如下:


左边那一列导航里,除第一栏是网站和用法的简介外,下面有30种不同实验类型的样本量计算器,分成几大类:单样本均数、两样本均数比较、K个样本均数比较、单个率、两样本率比较、配对率比较、K个样本率比较、时间-事件数据比较,OR值比较,SCSS的相对发病率、其他。

比如我要比较两种药物A和B对血清中P蛋白浓度的影响,在小样本的预实验中(或查文献得知,总之我们需要知道这个参数),A药物治疗后P蛋白下降了32.3ug/L,B药物组下降了38.6ug/L,总体标准差为7.2ug/L,现在我想扩大实验,需要多大样本呢?

在导航栏选择“Compare 2 Means: 2-Sample, 2-Sided Equality”,在左上角的Calculate下拉框里选择Sample Size:


然后看Power那一栏,我希望自己的实验有80%的统计功效,所以填0.8,第一类错误概率,约定俗成填5%,下边是按预实验结果或文献信息分别填上各组均值、总体标准差,Sampling Ratio填1,即两组样本量相等。最后点Calculate,就可以在左上的绿色框中看到,B组需要21人,两组一共就是42人,再考虑下80%的依从率,凑个整大概就入组60例吧~呃,想要的900例没有了……突然省了好多事。

右边那个曲线,纵坐标是样本量,横坐标是可以选择的,连坐标范围都可以调整。本图显示的是A组平均值,可以贴心地告诉你,均值浮动的范围内样本量会怎样变化。更换横坐标还可以看到样本量随B组平均值、总体标准差、取样比例的变化。三条曲线,分别是统计功效为70%、80%、90%时的样本量变化,提供多种参考。

继续拉到页面下方:公式!!!


这个公式只要贴到标书上就好了~每种实验的计算方法都是不一样的,要是都背下来多痛苦啊。

再往下就是R语言代码,有兴趣就看看呗。

如果你的实验要检测多个指标怎么办?那就每个指标都算一遍,取最大值,显然要求最大的一个指标都满足了,其他肯定不在话下。

这个网站还有另一个用处,就是当我们读到一篇文献,不知道它的结果有多靠谱,那么就在左上刚才我们选择Sample Size的地方,换成Power,然后在下边各栏填上实验的各个参数,最后计算统计功效,也就可以作为是否相信这个研究结果的参考。

所以,并不是P<0.05就可以了,科研的水很深啊骚年。

参考资料:

1.How Many Data Points Do I Need For My Experiment?

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多