【原】我们顶礼膜拜的大规模RCT 有人说是绣花枕头？

医粒种子 2021-03-10

展开全文

一提到大规模RCT做出的研究结果，我们大都是顶礼膜拜。被大规模RCT证实的理论，几乎等同于真理；能经得起大规模RCT考验的药物，那一定要归入神药级别。然而，最近一位医学大咖在大会上发表了惊人言论：“凡是需要大样本随机双盲研究才能证实的干预，疗效可能都抵不过心理暗示”，小编听后如雷轰电掣一般，瞬间目瞪口呆!

大规模RCT的本真面目究竟是怎样的，为何引得众多大咖趋之如骛？如果大规模RCT真是实用性很差的绣花枕头，为什么半个世纪以来一直是学术界公认的判断某些疗效的试金石？

大规模RCT的本真面目

大规模RCT的本真面目是怎样的？我们先回到学者们进行RCT的初衷，即证明一项干预针对某一人群是否有效。其实，搞清楚这样的问题最彻底的办法应该是把全世界所谓“某一人群（比如糖尿病患者）”都“干预”一遍，研究结果啥样结论就是啥样，甚至不存在任何误差。很显然，这条路既是根本做不到或不需要做到的，也往往是不符合医学研究伦理的。那么，相对理想的研究条件是，克隆完全相同的两组人，让他们代表“所有人”，一组接受干预，一组不接受干预，然后疗效好坏一目了然。但这样的场景同样也只能出现在科幻小说中。

现实的情况远比理想条件复杂的多。人世间的芸芸众生，千差万别。一个药物，甚至会出现“己之神药，彼之砒霜”的怪象。这无疑让判断某种干预是否有效变得复杂异常。

然而，人类总能找到探索奥妙的路径。数学方法、统计学方法正是用来解决无法“克隆”出完全相同的两组人这样的难题。因此，大规模RCT横空出世，成了“克隆人”进行科研的替代解决方案。下来，我们来了解一下科学家们脑洞大开设计出的大规模RCT，是如何实现近似克隆人进行科研的？

我们先来分解一下大规模RCT的关键元素，即随机、双盲、对照和大规模，逐一剖析它们发挥的作用。

随机：因为无法克隆完全相同的人进行疗效比较，就退而求其次，找到高度相似的患者进行研究。一方面，制定严格的入排标准，尽量选择患有同一疾病，且病情和整体身体状况基本一致的患者。然而，还有一些尚未完全确定但可能影响患者预后的因素，我们无法人为控制他们在两组中出现的高度一致性，因此默认随机分组能使这些因素在两组的出现概率相似，从而确保两组患者是健康状况高度相似的人。当然，除了随机，理论上样本量足够大，也是两组出现的概率才会趋于一致的必要条件。

双盲：则是避免主观因素对试验的影响，确保试验的客观性。比如要测试加多宝和王老吉哪个更符合大众口味。如果直接拿原装加多宝和王老吉上街让路人品尝，测试出来的往往是路人的主观偏爱。如果把两种凉茶倒入同样的杯子，只有试验者知道哪杯是加多宝哪杯是王老吉，而路人不知道，那就能大致排除了受试者的主观影响，这叫单盲。而双盲，则是试验者也不知道哪杯是什么，只有设计试验的人清楚。这就进一步避免了试验者在递凉茶给路人时，可能通过语言表情等信息对路人的影响。彻底排除了主观因素的影响。

对照：我们都知道，人有自愈的可能性。没有对照，一个人病愈，谁能判断是自身免疫力的作用、药物治疗的功劳，抑或是安慰剂效应。通过设对照，就可将自这些干扰排除掉。比如有些感冒，不治疗7天也可以自愈，如果没有对照，我们很容易认为是药物的神效。

大规模：只有在更多人身上得到验证，才能排除没有普遍性的各类小概率误差的影响。暂且不论判断一个药物是否有效的复杂性，就是糖是甜的这么简单的问题，不多调查几个人，也可能得出错误的结论。比如一个人，刚吃了一个更甜的糖，你给他一个普通的糖，他可能说不甜，你统计的时候就可能会把糖说成没有味道。诸如此类，小样本有很大的误差。理论上样本量越大，结果的可信度会越高。

总体来说，大规模RCT通过聚

焦于某一疾病的复杂人群中的

一小部分病情相似者，用随机

化达到未知危险因素组间的平

均分配，用双盲避免不同人主

观的不同影响，用对照排除安

慰剂效应和自愈的可能性，用

大规模减少抽样误差的影响，

从而达到得出因果关系的可

能性。

大样本RCT证实的药物疗效甚微惊世骇俗or另有道理？

既然大样本RCT是个判断因果关系即某药物疗效最好的方法之一，那为什么大咖又表示“凡是需要大样本随机双盲研究才能证实的干预，疗效可能都抵不过心理暗示”，这拧巴的逻辑，我们的好好理一理。

在科研的过程中经常遭遇这种情况，小样本做不出显著性的结果，增大样本后就有显著性了。这意味着干预虽有效，但非常小，一些还没搞明白的微弱变量，足以把他的效应给掩盖了。但加大样本量，通过随机化可抵消未知的影响因素，最终可以把一些微弱有效干预的作用研究出来。因此，从这个角度讲，大规模RCT是一台“显微镜”，借着他可以让我们看到那些比较“小”，无法从直观发现的干预效果是不是真的存在。也就是说，如果一项干预对大多数人都疗效非常显著，完全不需要大规模RCT，比如，战场上创伤包扎止血对伤员死亡率的影响，狂犬疫苗接种和狂犬病免疫球蛋白注射对预防狂犬病发病的影响，这些干预的效果几个病例就足以说明问题。

此外，大规模RCT还有其他2个与生俱来的缺陷。首先，统计上的显著性，与临床实践中说的显著有效，往往是两码事。比如大规模研究证实某药物治疗可使女性某种疾病风险显著降低56％。实际情况是什么的呢？未服用药物的妇女每年该疾病的发病率为0.5％。而服用该药物的妇女的发病率是0.2％。换句话说，每日服药的结果使发病率从0.5%降到0.2%。实际意义很有限，但统计结果有显著差异。其次，大样本RCT的结果，面对真实世界的应用，显得个体应用性非常差，也就是缺乏普遍意义。为了便于推断因果，RCT设计严格的入排标准，相当于管中窥豹，虽能了解一二，但不能洞悉全部真相。但临床应用时，如果将管中窥豹得来的结论用于某一疾病的整个人群，自然效果难以确保。

大样本RCT存在的意义究竟是什么？

既然大样本RCT有这么多的不如意之处，为何大样本RCT还能在临床研究领域经独领风骚近半个世纪？近年来，随着医学与大数据和人工智能的不断结合，真实世界研究（RWR,real world research）异军突起，成为了科研工作者的新宠，甚至有一种这样的声音出现，“真实世界研究更接近真实，实用性更大”，研究性RCT将“霸主”地位将不保？

其实，大样本RCT自然有他的不可取代之处。与真实世界研究相比，各具优缺点，是互补的关系，并不对立。

RCT是评价任何临床干预措施是否安全有效的基石。若无RCT，任何外部有效性结果都将受到质疑。甚至会出现“请和尚念经医好了病”、“请道士作法驱逐了病”、 “挂了两天盐水是某病的良药”等等似是而非的“结果”。在RCT的基础上制定相应的治疗指南，新的临床干预措施得以真正用于临床。但指南只是一种推荐，它告诉医生哪些该做或可以做，而不是哪些必须做，指南不能替代临床经验。这时就需要RWR作为有效补充，RWR用于决定效应性，用于决定临床实践中真实的效益、风险和治疗价值，使RCT研究的结论回归真实世界，进而使治疗策略逐步完善，最终优化治疗。这才是医学治疗方式从设想到真正成为临床医生深刻认知的完整过程，即

RCT-指南推荐-RWS-完善临

床实践-提出新的临床问题-

RCT，共同成为一个螺旋上

升的完整循证医学证据链

综上所述，研究性RCT多属于新治疗措施实施前的研究， RWR属于新治疗措旌实施后的研究。两者不是对同一个问题的平行论证，而是承启关系。大规模研究性RCT虽然存在着不那么令人满意的地方，但科学界尚未找到更好的替代方案，因此他仍然是判断某些因果关系或某药物疗效的“金标准”。但从临床应用的角度，医生应该懂得将研究性RCT和RWR的结果相结合，针对具体研究目的和内容，选择最适宜的临床决策，才能反映出真实的临床情况，为日常医疗活动提供有用的指导。