【原】不要迷信随机对照试验（RCT）

木森moose 2020-03-01

展开全文

本文由湘雅医学院临床医学博士，整体健康医学专家-刘浩医生指导

在上个世纪70年代，科学家发明了膜肺（ECMO）。

膜肺的本质是一种人工肺。

当患者肺功能受损时，它能够承担肺的功能，让肺处于休息状态，从而为患者的康复争取到足够的时间。

在当时，膜肺成功地治疗了新生儿的肺动脉高压，让这些孩子的死亡率从80%下降到了20%。

那个时候，膜肺的运行机制和治疗机理都已经是很清楚的了。

但研究者觉得，要增加说服力，还是要进行进一步的试验。

他们首先进行了一个保守的试验。

治疗组和对照组都只放上一个婴儿，如果哪一组的宝宝成功存活了，就给那组再加一个婴儿。

结果是，1个接受常规治疗（对照组）的宝宝死掉了，而11位接受膜肺治疗的宝宝都存活了下来。

但即便是这样了，研究者觉得还是不够，必须要进行标准的随机对照试验（randomized controlled trial，RCT）。

最后的结果呢？

接受了膜肺治疗的婴儿全部都活下来了。

而对照组中的10个宝宝，有4个出现了死亡。

为什么会发生这种悲剧？

因为人们笃信RCT是检验治疗效果的金标准，是反映因果关系的最有效的手段。

在这种信念下，为了谋求“真理”，牺牲一些生命也是“值得”的。

这种想法从上个世纪70年代，一直延续到了今天。

然而，我们必须得拷问，被奉为现代医学基石的RCT真的无懈可击吗？

在进行深入的分析后，我们发现，RCT被过度地神话了。

一、随机的神话

RCT是现代医学在检验某种治疗是否有效时常用的手段。

它的方法就是找一个特定的人群，随机分成两组，一组接受需要测试的治疗，另一组接收安慰剂，最后比较两组，看治疗是否有效。

在很多人的眼里，RCT能够反映因果，并且是评价治疗方法的金标准——不像观察性的研究那样只看相关性，也不像专家意见那样存在偏见。

但问他们为什么是金标准呢？许多人会回答，因为“随机”了呀。

然而问题是，随机不是万能的——随机并不保证达到完全的平衡。

为了帮助理解，我们可以来做一道题目。

假设，在你面前放着100个球——60个红球，40个蓝球；

现在要求你闭着眼睛将这些球随机分成两组，每组分得50个球；

请问，你有多大的概率能保证两组的球是一样的，也就是各有30个红球20个蓝球？

我告诉你答案，是16.2%——也就是说，有超过80%的概率无法分得一样。

所以你可以清楚的看到，随机分成的两组，大概率是存在差异的。

为什么会这样呢？

究其根本，随机没有办法解决“协变量”的问题。

什么是协变量？协变量就是那些实验无法操纵，但却会影响试验结果的变量。

比如说，某种尚未发现的基因突变，会让人拥有更强的自愈能力。

如果这些人更多地被“随机”分到了治疗组中，那么治疗组的人天然就能变得更好——即便药物没有一点用处。

更进一步，我们不知道随机产生的不平衡有多大。

还是刚才的例子，100个球，其中60个红球，40个蓝球——可能一组分了50个红球，另一组只有10个红球（+40个蓝球）。如果红球代表那些“自愈力”更强的人，那么治疗组天生就完胜对照组。

统计学告诉我们，如果要用随机来得到平衡，要做的事情是这样的：

对一个样本进行无限次的分组和无限次的试验，最后再取平均。

但现实情况是，绝大多数的RCT只会做一次。

在某些情况下，就像是在抛硬币。

所以，RCT天生就可能存在偏差——它不等于真相，有时甚至离真相会很远。

二、复杂度的灾难

那你可能会问，既然随机无法带来平衡，那为什么要随机呢？

随机的目的在于为了避免研究者的挑选。

比如，研究者为了证明一种药有效，可能会把最有希望的病人挑到治疗组，而将其他的人放到对照组。

这样一来，药物的试验结果就会很好看。

但正如上面所说的，随机无法消除“协变量”带来的影响，也就无法像人们以为的那样“表明因果”。

那什么能够让RCT更好地表明因果呢？

答案是预先知识。[1]

你需要有预先知识，了解可能影响到结果的“协变量”，从而对受试者进行分层，并从不同的层中进行随机分组。

在最开始的例子中就是，从红球中随机分出两组红球，从蓝球中随机分出两组蓝球，再将分组两两结合；

这样一来，就能够解决随机带来的偏差。

然而，问题是，“协变量”可能是相当复杂的。

在真实的世界中，影响结果的协变量通常远不止一个。

就比如说，人类的基因组中有30,0000,0000对碱基对，它们中的许多都可能会对试验结果产生影响。

而许多慢性疾病，普遍是多个基因和多种环境因素共同作用的结果。

假设有5个协变量，每个协变量有10个值，那么我们就至少需要100000个分组。

这就意味着所需的样本数至少要超过100000人。

毫无疑问，这个量级是绝大多数RCT都无法满足的。

所以，在复杂的问题面前，仅靠RCT来反映因果是不容易的。

三、现代医学的局限

随机无法带来平衡，RCT在复杂面前也显得捉襟见肘。

而事实也表明，RCT存在严重的局限。

2018年的一项研究调查了截止2016年6月，被引用次数最多的10项RCT。[2]

这些RCT可都是重量级的，并且深刻地影响到了政策和指南的制定。

但研究发现，即使是在这些顶级的RCT中，治疗组和对照组的人群分布往往就是不均匀的。

这些受试者的一些背景因素会极大地干扰试验的结果，却没有被研究者考虑在内。

而在使用盲法、实施治疗和监测受试者的过程中，也都存在种种的偏差。

所以，这项研究的作者会感慨：所有RCT的结果都是存在偏颇的。

况且，我们甚至还没有谈RCT的其他局限：

比如在实验的受试者时往往就是经过精细筛选的，因此临床的结果不能随意地外推；

再比如，研究的结果是一个“平均疗效”。就像“平均收入”无法反映你的收入，“平均疗效”也没有办法反映某种治疗在某一个体中的效果。

我们要知道，在循证医学的金字塔中，RCT可是非常高的证据来源。

不管是综述，还是医生用的临床指南，最重要的依据都来自于RCT。

如果RCT并不完全可靠，我们又怎能保证循证医学的金字塔是稳固的呢？

而事实上，我们也看到了这样的一个医学体系存在的问题。

最明显的，在许多慢性疾病的治疗上，当前的医学体系就已经陷入了瓶颈。

当然，需要说明的是，这篇文章并不意在推翻RCT，也不是在反对现代医学的体系。

但我们需要看到的是，RCT和其他许多方法一样，是存在局限性的。

而一个建立在RCT之上的医疗系统，也注定是充满局限的。

“解决问题的第一步，是承认问题的存在。”

而很多时候，承认一个体系中存在的问题，我们将可能迎来新一轮的发展。

就像在经济学中，人们发现了传统经济学“理性人假设”的偏误，于是开创了行为经济学这一全新的分支。

之后，在传统经济学和行为经济学两套框架模型之下，我们对经济的运行有了更进一步的理解。

对于一个人来说，要很好地解决问题，重要的是建立多元思维模型。

对于一个系统，要更好地解决问题，多元的框架模型将是重要的。

而当我们意识到了当前医疗系统的局限，我们可能也需要着眼于寻求新的模式，来构建多元的医学模型。

四、多元的医学模型

医学模型可以在两个方面尝试多元化的探索，一是在寻求因果的方法上，二是在诊疗的方式上。

在传统的模式中，医学界寻求因果的工具，主要就是RCT。

我们已经讲过了RCT的局限性；而更进一步，我们需要知道，其他研究方法在探寻因果关系上，不一定会比RCT差。

方法的好坏，不取决于方法本身，而取决于你所要探究的问题。

举个例子，我们想研究看看，国家医疗保障和私人医疗保险，哪个对人的帮助会更大。

你当然可以设计一个RCT，找到两组人群，一组只有国家医疗保障，一组只有私人医疗保险。

但毫无疑问，这样的一个RCT肯定是花费高昂的，并且没有办法维持长期的研究。

除此之外，你找到的受试者只是一个小群体，很难反映整体的状况。

再进一步，这种试验没有办法进行双盲，也就无法排除人们心理因素的影响。

对于这个问题，观察性的研究显然就要好很多。

它能够通过政府和保险公司的记录获得足够大的覆盖数据，并且也不存在RCT的挑选问题。

并且，观察性研究还可以对要素进行修正，从而让结果更接近于真实。

RCT至上的观点是狭隘的。

而关于寻求因果关系的方法，他山之石可以攻玉。

其他学科，比如经济学和社会科学的方法，也许值得被更多地纳入到医学的研究中。

这些方法包括：

工具变量分析（Intrumental variables）
计量经济模型（Econometric modeling）
从理论中演绎推理（Deduction from theory）
因果贝叶斯网络（Causal Baysian nets）
过程追踪（Process tracing）
定性比较研究（Qualitative comparative analysis）

当然，没有什么方法是完美的；但在多种方法结合以及交叉验证的情况下，我们有更大的概率接近真相。

而在对患者的诊疗上，模型也需要更多样。

循证医学讲，要将可靠的临床证据、医生的经验和患者的意愿结合在一起。

这里的证据，往往就是指南和综述；而医生的临床经验要怎么结合，又是一个很模糊的东西。

于是，一些医生索性就按照指南来办。

但如果只按指南办事，我们是不是只用教会病人自己看UpToDate就行了？

引用一位医生朋友的话：一个只会看指南的医生，早晚会被沃森取代。

每个人都是独立人，但RCT看的是“平均人”。

要解决独立人的问题，以RCT为核心的指南注定无法提供完整的证据。

而临床证据的来源，需要更为多元，可能还应当包括下面的这些：

疾病理论：对于这种疾病，有哪些可靠的理论是可以用的？
微观机理：疾病在分子和细胞层面的机理是什么？
个体机制：根据患者的疾病史、症状、检查结果和家族史，这种疾病在TA身上的发病机制是什么？

而至于医生的经验，也是可以用多元的框架去表达的：

假设演绎：根据现有的信息，我能提出怎样的诊断假设，以及要如何去证明我的假设？

亚组分析：目前的诊断是不是太宽泛了，我能不能再更精确地对患者分组，从而可能带来更好的治疗？
整体分析：除了当前考虑的机制，是否能从营养、生活方式和社会心理层面进行更全面的考虑？是否能联合其他专业人士，包括营养师、健康管理师、心理咨询师，来一起提供解决方案？
类比推理：我以前是否遇见过类似的患者，当时有什么成功的治疗经验？
……

当然，医学范式的转移会是一个漫长的过程。

但面对当前医疗系统的局限，多元化将是一个值得探索的方向。

木森说

当今，许多人认为“RCT是检验真理的唯一标准”。

然而，被奉为金标准的RCT却是存在许多局限性的——

随机并不自动带来平衡，有时还会造成巨大的偏差；

RCT并不自动证明因果，协变量一旦复杂，RCT就变得捉襟见肘；

绝大多数RCT没有进行双盲，心理因素和选择效应仍然可能起作用；

RCT反映的是特定群体的效果，不能推广到全局；

RCT反映的是“平均疗效”，不一定适用于特定的个体……

并且，即使是最顶级的RCT，也是存在这些偏颇的。

RCT本身并没有错，方法的好坏要取决于你所研究的问题。