【原】组间差异有统计学意义，但是还有……坑！

解螺旋 2020-08-27

展开全文

作者：麦子（转载请注：解螺旋·医生科研助手）

统计是个磨人的小妖精，千辛万苦做出来P<0.05，然而敌不过审稿人一句“有个P用”。到底是审稿人在坑你，还是你自己掉进了坑里？今天就来认识一下“差异有统计学意义”背后的三个大坑。

有统计学差异，不代表这差异是由干预造成的！

小明申请到了一笔小小的院级课题经费，欲观察某种药物联合疗法（A疗法）治疗肝癌与传统方法（B疗法）比较的优势。限于经费，他只能给课题开始之后来访的患者使用A疗法，与本院U年U月U日至V年V月V日之间来访的使用B疗法、并有完整随访记录的病例做对照（即“历史对照”）。他观察到，使用A疗法的患者3年生存率有70%，使用B疗法者只有60%，差异有统计学意义。他鸡冻地写下结论：A疗法的3年生存率比B疗法高，差异有统计学意义（P<0.05），建议将A疗法进一步推广。

小红是他的审稿人，看了文章，心中一呸，写下了审稿意见：两组患者病情的基线一致么？如果由于这几年来诊断筛查技术的发展等原因，A组患者比B组的历史病例更早发现、早确诊，干预时的病情本来相对较轻、预后本来相对更好呢？你怎么知道B组的生存率不高是由于疗法不好还是患者本来就预后不良？拒稿。

真相：如果实验设计存在缺陷，那做出统计学差异也没什么卵用。虽然历史对照实验确实没有随机对照实验有说服力，但如果在某些特定情况下这是你唯一的选择，那只好多想想有没有什么潜在的影响因素在坑你了，然后需要做协方差分析进行校正。

一个差异有统计学意义，有时候还不够！

小明痛定思痛，搞到了经费，展开了随机对照实验，控制了入组基线。他仍然用A疗法和B疗法治疗肝癌，A疗法的应答率（response rate, RR）是50%，B疗法的RR是40%，经检验，差异有统计学意义（P<0.05）。他兴奋地宣布A疗法治疗肝癌比B疗法好。日夜兼程写论文，又投给了心仪的杂志。

稿子又落到了小红的手里（孽缘啊），她看了文章，呵呵一笑，写下了审稿意见：单单应答就意味着疗效好吗？如果A疗法的应答时间很短，而B疗法持续时间更长呢？至少还要考察一下应答的质量吧！还有患者的生存质量你不考虑吗，比如，如果A疗法副作用很大而B疗法副作用更小呢？是否值得为这一点点应答率的差别忍受更多副作用的痛苦？一个指标顶什么用，拒稿！

真相：P<0.05，本来意味着你“只有”5%的可能是靠运气得到这个结果，反过来也可以说，你“竟然还有”5%的机会撞上好运！P<0.05是约定俗成的规矩，但细想还是挺大的，就像现在挺火的阴阳师，0.05意味着抽20张卡就有可能抽到一个SSR，检测20个指标就可能发现一个有差异。万一你第一张卡就抽到了，广大患者还能跟你一样好运么？这就是为什么一些高贵冷艳的期刊要求你从多几个方面去验证。如果有三个指标达到P<0.05，那么实验组的干预方案跟对照组无差异的概率就是P<(0.05^3)=0.000125，即你需要抽8000张卡才能抽到一张SSR，这样拒绝原假设就充分多了。

差异有统计学意义不代表有实际意义！

小明卧薪尝胆，N年后又是一条好汉：他不但确定A疗法的副作用的确更小，应答的作用时间更长，而且在样本中的5年生存率有54%，B疗法只有52%，差异有统计学意义。这回他自信满满地加了一条结论：A疗法治疗肝癌能获得比B疗法更高的5年生存率，差异有统计学意义（P<0.05）。然后另寻了一家杂志投了稿。

小亮是他的审稿人，小亮看了文章，哀叹一声，写下了审稿意见：54%和52%的差别这么小，你咋不review一下文献中有没有其他干预手段能获得比这更好的结果？就我所知上个月刚刚有人发表了5年生存率83%的治疗方法，拒稿！

真相：锉子里的高个呗，有胆放到大环境里来溜溜。如果没有那篇83%的文章抢镜，那么54%跟52%的差距也许还是有那么一丁点机会报一报，以备今后继续开发的（机会真的就一丁点，差距太小就没什么实用价值，除非你研究的问题真的没有别的解决方案，绝望到这种地步）。所以设计实验之前要充分检索文献；但如果是你已经做完了、开始写文章了，别人的才刚发出来，那只好说生死有命富贵在天。

参考资料：

1.CancerGuide: The Significance of Statistical Significance