分享

什么是协变量Covariate?如何控制随机对照研究中协变量的影响

 思想年代 2020-08-10

SPSS 教程 29讲-34讲:混杂偏倚及控制方法

29讲:了解混杂因素与混杂偏倚

30讲:为什么回归分析可以控制混杂偏倚

31讲:实验性研究的协变量混杂偏倚控制

32讲:协方差分析控制实验性研究混杂偏倚

33讲:分层分析控制实验性研究混杂偏倚

34讲:利用回归分析控制偏倚的过程与报告撰写

SPSS 教程 32讲:如何控制实验性研究协变量的影响

在实验性研究、特别是在随机对照研究中,一个经常出现的词汇是协变量,英文是Covariate,这个词在传统的医学研究方法教材中很少出现,导致长久以来,无论动物实验、还是临床人群试验,几乎忽略它的存在,研究者很少认真考虑它对实验性研究结果的影响。初学者非常迷惑,很多英文SCI经常出现Covariate。什么是Covariate?它在统计分析中扮演什么角色?如何控制它的不良影响呢?

协变量是指不同干预措施前,研究者预计的、会对主要变量分析产生重要影响的因素。这类变量可以是定性,也可以是定量的,抑或是等级资料。其可以是人口统计学指标如年龄、体重、种族/民族等;也可以是一些疾病预后因素如疾病分型、病程或病情严重程度;当然还有一些其它因素如研究中心或研究者等。上述随机对照研究的基线信息均可以看作协变量,是随机对照研究设计和分析时必须要考虑的问题之一。

协变量对主要变量分析最重要的影响,指的是它往往会造成实验性研究干预措施疗效评价的偏倚。协变量,经常成为混杂变量。

随机对照研究中, 随机化作为一种必需手段,可避免处理组对象的分配偏倚, 并提供统计学假设检验的基础 。理论上, 随机化将确保所有的协变量在处理组间的平衡, 包括病人特征和疾病特征,比如年龄 、病情等 。然而, 实际工作中若仅用简单随机化, 则很难保证有些重要的协变量的平衡,尤其是当试验的样本含量较小时 。如果出现协变量不平衡, 而它们又与研究结果密切相关时,则这时不合理考虑协变量的影响,直接评价处理效应, 将很可能会导致结论的偏倚乃至错误。

所以,随机对照研究也会出现分组不均衡的情况,而分组不均衡的协变量可能带来结果偏倚。此时的协变量便是混杂因素,带来混杂偏倚。


1



如何控制协变量带来的偏倚?

有两类可用于调整处理组间潜在的或实际存在的不平衡的方法。第一类是防止试验设计阶段不平衡的方法,比如分层法和匹配法, 用来强制使处理组间在重要的和事先指定的协变量上达到平衡 。这些方法常被称为“事先控制“方法 。

另一类是在试验分析阶段调整不平衡的方法, 例如分层检验法 、回归模型法 。这些方法在比较处理组间的处理效应 、进行统计学检验时, 考虑到不平衡的协变量影响, 常叫做” 事后控制“方法 。


2



事先控制法

(1) 完全随机分组
要使基线(已知的或未知的)在各处理组间达到均衡,最好的办法是使用随机分组。理论上,在样本量足够大时,通过完全随机分组,各种因素(已知的和未知的)在各处理组间的分布趋于均衡。

(2)分层随机化
按协变量取值进行分层随机化。在样本量不是很大时,即使通过简单随机分组,也不一定能确保各因素在各处理组间的分布达到期望的均衡状态。此时,可以按照协变量进行分层,采用分层随机化保证一些重要协变量在组间分布的均衡。但分层因素不宜太多,一般考虑最重要的 1~3 个因素,每个因素 2~3 个水平。

(3)匹配随机化
如临床试验中,根据具体要求可将性别、体重、年龄、职业、病情和病程等条件相同或相近的病人配成对子(或列入一个区组),再将同对(或同一区组)的实验对象随机分配到到各处理组中去。配对(随机区组)设计可以使各处理组中的实验对象条件均衡,具有良好的可比性,由于控制了非处理因素的影响,使处理因素的效应能得到比较符合实际的客观反映。

关于随机区组分析,本系列文章之前已经有所介绍:SPSS 统计分析策略(8):随机区组设计方差分析


3



事后控制法

根据协变量的性质和需考虑的协变量数目的不同,需采用不同的方法对协变量进行校正:当主要结果变量为连续性指标时,可采用差值法或者协方差分析(analysis of covariance,ANCOVA);当主要结果变量和协变量是分类指标时,可采用分层分析;当有多个协变量需要考虑时,常采用相应的线性模型或广义线性模型进行校正。

(1)差值法
在评价主要终点指标时,如果其基线取值是连续性变量,往往要考虑基线值的大小对预后的影响。常用的方法是计算观察指标相对于基线的变 化值,即治疗后观测值与基线值的差值,包括绝对差值或相对差值。绝对差值即干预后-干预前,相对差值即(干预后-干预前)/干预前 。

控制法,我们在之前的系列文章已经全面细致地进行介绍,欢迎点击学习:
小统计大文章,如何利用简单统计学获得可靠证据(上)

(2)协方差方法
通俗来讲,协方差分析是方差分析基础上加入协变量进行回归分析,也就是方差分析和线性回归分析的结合。大家都明白,方差分析是可以开展组间差异性分析,在分组均衡性的实验性研究中,方差分析可以证明处理因素与定量结局的关系;那么线性回归呢?在上一讲我已经介绍,线性回归可以控制混杂偏倚。既然如此,如果协变量是混杂变量,我们用线性回归分析便可以控制偏倚。因此,方差分析与回归分析相结合的协方差分析,可以用来控制偏倚、探讨处理因素效应。

例 1 按年龄、体重将 24 只大白鼠按照窝别和体重的相似性配成 8 个区组,再将每个区组的 3 只大白鼠随机分入 3 个饲料组。各组大白鼠的进食量控制在相近的条件下,3 组大白鼠进食量与所增体重测定结果如下表 。

该研究为随机区组设计,可采用随机区组方差分析的方法。虽然随机区组设计已经是非常好的控制协变量的方法,但是它可能不一定够用,比如本研究经统计学检验, 3 组动物所增体重的均数间的差异有无统计学意义。

在随机区组设计的方差分析中,研究者没有考虑进食量这一协变量。进食量是不能或难以控制的影响因素,为消除进食量对大白鼠体重增量的影响,我以进食量为协变量,采用协方差分析控制进食量的干扰,比较 3 组大白鼠体重增量间的差异。

用SPSS25.0 统计软件进行协方差分析结果发现 :3组间比较的F=9.553, P=0.003<0.05,可以认为不同饲料喂养的大白鼠,所增体重的均数在扣除进食量的影响后仍有差别。

可以看出,采用协方差分析和不采用协方差分析的方法,结果有所区别。可见通过控制协变量的影响,可能给我们带来新的不一样的结果。

关于协方差分析,请关注下一讲更详细的内容介绍。

(3)分层分析方法
分层分析是控制协变量的基本方法之一,此时协变量是分类变量,如果协变量是连续性变量,则需要分类化。选择具体分层分析方法时要考虑结果变量的类型。当主要结果变量是分类指标时,对协变量的校正可采用 Cochran-Mantel-Haenszel(CMH)检验进行分层分析;当结果变量为生存时间时,可用分层 log-rank 检验、分层 Cox 模型等。

例 2  研究产妇状况与电针引产手术效果的关系,将 771 例产妇按初产和往产进行分组,观察电针引产手术的效果,结果如下表。
用 χ2 检 验 比 较 两 组 的 手 术 成 功 率 :P=0.145>0.05,产妇状况对电针引产手术效果没有影响。

但进一步分析发现,'胎膜状况'这一产妇的协变量是混杂因素:用 χ2 检 验 比 较 两 组 的 胎 膜 已 破 率 :P=0.001<0.05,胎膜状况在两组产妇中的分布不同。
胎膜状况应该是一个混杂因素,因为它对手术的效果有影响,而且与产妇状况有关。胎膜状况在不同状况产妇中分布明显不同,初产产妇中胎膜已破率高于往产产妇。而胎膜已破组的手术成功率高于胎膜未破组,所以这种分布的不均衡就导致了混杂作用。

为了控制混杂因素的影响可以采用分层分析的方法。先将产妇按胎膜状况分组,再在两种不同的状况下分析初产和往产产妇的手术效果,结果如下表
结果表明 :在胎膜已破的情况下,产妇状况对手术效果有影响。分别在胎膜已破和胎膜未破的产妇中,比较初产和往产产妇,可使我们在不依赖于胎膜状况的情况下,分析产妇状况对引产手术效果的影响。

如何进行分层分析呢?且听下下回分解。

(4)回归分析法
上述几种方法中,一般指有1-2个混杂变量,采用良好的设计或用分层分析可以控制混杂因素的影响。当有多个协变量需要考虑时,常采用相应的统计学模型进行校正。一般而言,当结果变量为连续性指标时,采用一般线性模型;当结果变量为二分类时,采用 logistic 回归;当结果为有序分类变量时,采用有序结果的累积比数 logistic 回归;当结果变量是生存变量时,采用 Cox 比例风险模型;当结果变量是事件发生数时,采用 poisson 回归模型等。

关于回归分析控制混杂的方法,我已经在上一讲、上上一讲都进行了介绍,这里不再啰嗦。

总之,在医学实验研究中混杂因素的影响是不可忽视的,要正确地区分处理因素和混杂因素,进行科学的实验设计,选用正确的统计分析方法,尽可能地消除混杂因素的影响,以使我们的研究成果更真实、可信。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多