什么是协变量Covariate？如何控制随机对照研究中协变量的影响

思想年代 2020-08-10

展开全文

SPSS 教程 29讲-34讲：混杂偏倚及控制方法

29讲：了解混杂因素与混杂偏倚

30讲：为什么回归分析可以控制混杂偏倚

31讲：实验性研究的协变量混杂偏倚控制

32讲：协方差分析控制实验性研究混杂偏倚

33讲：分层分析控制实验性研究混杂偏倚

34讲：利用回归分析控制偏倚的过程与报告撰写

SPSS 教程 32讲：如何控制实验性研究协变量的影响

在实验性研究、特别是在随机对照研究中，一个经常出现的词汇是协变量，英文是Covariate，这个词在传统的医学研究方法教材中很少出现，导致长久以来，无论动物实验、还是临床人群试验，几乎忽略它的存在，研究者很少认真考虑它对实验性研究结果的影响。初学者非常迷惑，很多英文SCI经常出现Covariate。什么是Covariate？它在统计分析中扮演什么角色？如何控制它的不良影响呢？

协变量是指不同干预措施前，研究者预计的、会对主要变量分析产生重要影响的因素。这类变量可以是定性，也可以是定量的，抑或是等级资料。其可以是人口统计学指标如年龄、体重、种族/民族等；也可以是一些疾病预后因素如疾病分型、病程或病情严重程度；当然还有一些其它因素如研究中心或研究者等。上述随机对照研究的基线信息均可以看作协变量，是随机对照研究设计和分析时必须要考虑的问题之一。

协变量对主要变量分析最重要的影响，指的是它往往会造成实验性研究干预措施疗效评价的偏倚。协变量，经常成为混杂变量。

随机对照研究中, 随机化作为一种必需手段，可避免处理组对象的分配偏倚，并提供统计学假设检验的基础。理论上，随机化将确保所有的协变量在处理组间的平衡，包括病人特征和疾病特征，比如年龄、病情等。然而, 实际工作中若仅用简单随机化，则很难保证有些重要的协变量的平衡，尤其是当试验的样本含量较小时。如果出现协变量不平衡，而它们又与研究结果密切相关时，则这时不合理考虑协变量的影响，直接评价处理效应，将很可能会导致结论的偏倚乃至错误。

所以，随机对照研究也会出现分组不均衡的情况，而分组不均衡的协变量可能带来结果偏倚。此时的协变量便是混杂因素，带来混杂偏倚。

1

如何控制协变量带来的偏倚?

有两类可用于调整处理组间潜在的或实际存在的不平衡的方法。第一类是防止试验设计阶段不平衡的方法，比如分层法和匹配法, 用来强制使处理组间在重要的和事先指定的协变量上达到平衡。这些方法常被称为“事先控制“方法。

另一类是在试验分析阶段调整不平衡的方法, 例如分层检验法、回归模型法。这些方法在比较处理组间的处理效应、进行统计学检验时, 考虑到不平衡的协变量影响， 常叫做” 事后控制“方法。

2

事先控制法

（1）完全随机分组

要使基线（已知的或未知的）在各处理组间达到均衡，最好的办法是使用随机分组。理论上，在样本量足够大时，通过完全随机分组，各种因素（已知的和未知的）在各处理组间的分布趋于均衡。

（2）分层随机化
按协变量取值进行分层随机化。在样本量不是很大时，即使通过简单随机分组，也不一定能确保各因素在各处理组间的分布达到期望的均衡状态。此时，可以按照协变量进行分层，采用分层随机化保证一些重要协变量在组间分布的均衡。但分层因素不宜太多，一般考虑最重要的 1～3 个因素，每个因素 2～3 个水平。

（3）匹配随机化

如临床试验中，根据具体要求可将性别、体重、年龄、职业、病情和病程等条件相同或相近的病人配成对子（或列入一个区组），再将同对（或同一区组）的实验对象随机分配到到各处理组中去。配对（随机区组）设计可以使各处理组中的实验对象条件均衡，具有良好的可比性，由于控制了非处理因素的影响，使处理因素的效应能得到比较符合实际的客观反映。

关于随机区组分析，本系列文章之前已经有所介绍：SPSS 统计分析策略（8）：随机区组设计方差分析

3

事后控制法

根据协变量的性质和需考虑的协变量数目的不同，需采用不同的方法对协变量进行校正：当主要结果变量为连续性指标时，可采用差值法或者协方差分析（analysis of covariance，ANCOVA）；当主要结果变量和协变量是分类指标时，可采用分层分析；当有多个协变量需要考虑时，常采用相应的线性模型或广义线性模型进行校正。

（1）差值法

在评价主要终点指标时，如果其基线取值是连续性变量，往往要考虑基线值的大小对预后的影响。常用的方法是计算观察指标相对于基线的变化值，即治疗后观测值与基线值的差值，包括绝对差值或相对差值。绝对差值即干预后-干预前，相对差值即(干预后-干预前)/干预前。

控制法，我们在之前的系列文章已经全面细致地进行介绍，欢迎点击学习：

小统计大文章，如何利用简单统计学获得可靠证据（上）

（2）协方差方法

通俗来讲，协方差分析是方差分析基础上加入协变量进行回归分析，也就是方差分析和线性回归分析的结合。大家都明白，方差分析是可以开展组间差异性分析，在分组均衡性的实验性研究中，方差分析可以证明处理因素与定量结局的关系；那么线性回归呢？在上一讲我已经介绍，线性回归可以控制混杂偏倚。既然如此，如果协变量是混杂变量，我们用线性回归分析便可以控制偏倚。因此，方差分析与回归分析相结合的协方差分析，可以用来控制偏倚、探讨处理因素效应。

例 1 按年龄、体重将 24 只大白鼠按照窝别和体重的相似性配成 8 个区组，再将每个区组的 3 只大白鼠随机分入 3 个饲料组。各组大白鼠的进食量控制在相近的条件下，3 组大白鼠进食量与所增体重测定结果如下表。

该研究为随机区组设计，可采用随机区组方差分析的方法。虽然随机区组设计已经是非常好的控制协变量的方法，但是它可能不一定够用，比如本研究经统计学检验， 3 组动物所增体重的均数间的差异有无统计学意义。

在随机区组设计的方差分析中，研究者没有考虑进食量这一协变量。进食量是不能或难以控制的影响因素，为消除进食量对大白鼠体重增量的影响，我以进食量为协变量，采用协方差分析控制进食量的干扰，比较 3 组大白鼠体重增量间的差异。

用SPSS25.0 统计软件进行协方差分析结果发现：3组间比较的F=9.553， P=0.003<0.05，可以认为不同饲料喂养的大白鼠，所增体重的均数在扣除进食量的影响后仍有差别。

可以看出，采用协方差分析和不采用协方差分析的方法，结果有所区别。可见通过控制协变量的影响，可能给我们带来新的不一样的结果。

关于协方差分析，请关注下一讲更详细的内容介绍。

（3）分层分析方法

分层分析是控制协变量的基本方法之一，此时协变量是分类变量，如果协变量是连续性变量，则需要分类化。选择具体分层分析方法时要考虑结果变量的类型。当主要结果变量是分类指标时，对协变量的校正可采用 Cochran-Mantel-Haenszel（CMH）检验进行分层分析；当结果变量为生存时间时，可用分层 log-rank 检验、分层 Cox 模型等。

例 2 研究产妇状况与电针引产手术效果的关系，将 771 例产妇按初产和往产进行分组，观察电针引产手术的效果，结果如下表。

用 χ2 检验比较两组的手术成功率：P=0.145>0.05，产妇状况对电针引产手术效果没有影响。

但进一步分析发现,'胎膜状况'这一产妇的协变量是混杂因素：用 χ2 检验比较两组的胎膜已破率：P=0.001<0.05，胎膜状况在两组产妇中的分布不同。

胎膜状况应该是一个混杂因素，因为它对手术的效果有影响，而且与产妇状况有关。胎膜状况在不同状况产妇中分布明显不同，初产产妇中胎膜已破率高于往产产妇。而胎膜已破组的手术成功率高于胎膜未破组，所以这种分布的不均衡就导致了混杂作用。

为了控制混杂因素的影响可以采用分层分析的方法。先将产妇按胎膜状况分组，再在两种不同的状况下分析初产和往产产妇的手术效果，结果如下表

结果表明：在胎膜已破的情况下，产妇状况对手术效果有影响。分别在胎膜已破和胎膜未破的产妇中，比较初产和往产产妇，可使我们在不依赖于胎膜状况的情况下，分析产妇状况对引产手术效果的影响。

如何进行分层分析呢？且听下下回分解。

（4）回归分析法

上述几种方法中，一般指有1-2个混杂变量，采用良好的设计或用分层分析可以控制混杂因素的影响。当有多个协变量需要考虑时，常采用相应的统计学模型进行校正。一般而言，当结果变量为连续性指标时，采用一般线性模型；当结果变量为二分类时，采用 logistic 回归；当结果为有序分类变量时，采用有序结果的累积比数 logistic 回归；当结果变量是生存变量时，采用 Cox 比例风险模型；当结果变量是事件发生数时，采用 poisson 回归模型等。

关于回归分析控制混杂的方法，我已经在上一讲、上上一讲都进行了介绍，这里不再啰嗦。

总之，在医学实验研究中混杂因素的影响是不可忽视的，要正确地区分处理因素和混杂因素，进行科学的实验设计，选用正确的统计分析方法，尽可能地消除混杂因素的影响，以使我们的研究成果更真实、可信。