回归法控制混杂的基本过程 | 2周掌握统计学与SPSS数据分析(D29）

刘金宸 2022-12-27 发布于云南

展开全文

Day 29：回归分析控制偏倚的过程与报告撰写

隶属第七部分：混杂及其控制

本日学习任务

1. 微信群内视频1段（19分钟）

2. 公众号推文1篇：D29

3. SPSS实操题；

建议先观看视频，再看本推文再测试，否则效果不佳！

以下文字版教程，今后可能会失效，如需获得全套视频课程，以及永久版的文字版教程，请加入公益免费课程群（发送“打卡”到公众号），全面学习医学统计学与SPSS应用

混杂偏倚，特别是观察性研究的偏倚，需要重点关注。常见情况下，我们会采用回归分析的方式来进行处理。关于这一点，我们在之前的几讲重点进行了介绍。

从目前国内的文献来看，研究者可能懂得如何利用回归去分析和控制偏倚，但是国内学者在写作方面规范性却不足。

因此，本文着重介绍，如何结合不同的统计工具控制混杂偏倚，撰写一篇学术论文。

1.混杂偏倚控制的基本统计学过程

对于初学者来说，混杂偏倚控制实际上遵循的统计过程，跟之前的系列课程介绍的内容非常相似，它们是现况调查的统计分析策略、病例对照研究的统计分析策略、队列研究的统计分析策略。这三篇文章，我是从回归分析的第一个目的----影响因素角度来阐述的。也就是说，如果诸位开展观察性研究，探讨影响结局的多个因素，那么基本的统计策略可以从上三篇文章学到很多内容。

控制混杂偏倚的回归方法，其统计策略又是如何呢？一般来说控制混杂的回归与探讨影响因素的回归，统计过程相似，但是具体思路上有所不同。

混杂偏倚控制的基本统计过程分为四步骤：

第一步，统计描述

第二步，分人群差异性比较（均衡性比较）

观察性研究重要的特征是人群分组不均衡，由于人群是自然分组，人群的特征譬如年龄、性别在暴露因素的不同暴露水平（暴露组/非暴露组；低暴露水平组/高暴露水平组）之间会有差异性。因此，一般情况下首先需要探索性分析，究竟有哪一些人群的特征分组是不均衡的。

是否分组不能均衡可以通过差异性比较方法（t、F、卡方、秩和），以P值来反映。如果P值<0.05，则可被认为是潜在混杂因素（不能说是混杂因素，毕竟混杂因素要同时满足3个条件）

值得注意的是，人群如何分法，会因不同研究类型而定；

病例对照研究是按照病例组/对照组分型；比较病例组和对照组，差异有无统计学意义

一般队列研究是按照暴露组/非暴露组进行分组比较；比较不同暴露组别，差异有无统计学意义

横截面调查可灵活处理。

随机对照研究一般按照干预组/对照组进行分组。

第三步，简单关联性分析

简单关联性分析意味着，研究要初步探索暴露因素/处理因素与结局的关系。关于这一点，可以采用的方法包括基础统计学方法，或者单因素回归分析，两者结果大致相同（包括P值和效应指标）。比如，如果是二分类数据的结局，则应该采用卡方检验，其结果和单因素logistic相似，两种方法均可以计算除效应指标OR值。OR值结果一致。

第四步，多因素分析

一般情况下，研究者基于第一步挑出潜在混杂因素与暴露因素一起建立多因素回归模型，从而在控制混杂偏倚的基础上探讨暴露因素与结局的关联性。

必须强调下，这里的潜在混杂因素，一般便是就是第一部分，分组不均衡的（比如P<0.05）的因素。此外，若研究者认为从因果关系角度考虑，有一些因素应该理论上是混杂因素，也可考虑纳入，比如年龄、性别、病情等。回归分析中，混杂因素不应太多，否则会导致建模失败。

具体回归分析方法是，这里可以考虑的包括以下几种：

上述就是混杂偏倚控制的基本策略，当然现实中，一篇文章的内容要更为丰富一些。诸位应用时不应该循规蹈矩。

2. 案例分析

我这里结合2个案例，介绍统计过程与报告撰写。

1

案例1：队列研究

这是一项关于吸烟与经皮冠状动脉介入治疗的ST段提升的心肌梗死（STEMI）患者的关联性研究。所有患者均接受皮冠状动脉介入治疗，研究的暴露因素为最近吸烟状态，因此人群分为吸烟组和不吸烟组。研究主要结局为全死因死亡、住院、以及复合终点（死亡或者住院）。

这是一项队列研究，由于研究结局是生存时间结局，作者采用了LogRank和Cox回归等方法开展分析。

首先，研究对象的分人群差异性分析

此处进行均衡性比较。该研究暴露因素为吸烟，分为吸烟组/不吸烟组，样本量分别为1471人和1093人。研究者对年龄、性别、高血压、血管项指标、血液项指标开展比较分析。2564例STEMI患者中，近期吸烟者1093例（42.6%）。吸烟者年轻10岁，合并症较少，在诸多的特征上均与不吸烟者存在着统计学差异。分组不均衡者即为潜在混杂因素。从下表可以看出，该研究有不少潜在的混杂因素，其中最典型的就是年龄。

然后，开展简单关联性分析

该研究结局指标比较多，关键的指标是人群死亡率、心力衰竭住院率、死亡或心衰住院率（复合指标）、再梗死率。由于是生存时间结局，因此，采用的方法包括采用logRank方法和单因素Cox回归分析的方法，同时，绘制生存曲线。logRank负责计算P值，Cox回归负责计算HR值以及95%置信区间。

结果显示，与不吸烟者相比，吸烟者的1年内全因死亡率（1.0% vs 2.9%；p<0.001，A图）和死亡或心衰住院率（3.3% vs 5.1%；p=0.009，C图）较低，两者的再梗死率相似（D图）。单因素结果显示吸烟者似乎可以预防不良结局。

最后，采用多因素回归的分析，调整混杂因素的影响

本文采用多因素Cox回归分析来进行，作者首先指出模型校正的变量即“协变量”有哪些：

The following variables were used in the adjusted models: age (as a continuous variable), sex, hypertension, hyperlipidemia, diabetes, left anterior descending (LAD) versus non-LAD infarct artery, baseline TIMI (Thrombolysis In Myocardial Infarction) flow grade 0/1 versus 2/3, and symptom-to-firstdevice time.

在分析中，作者没有把所有协变量全放进去开展了校正，而是建立了多个模型。由此从中可以看出各个协变量的影响。

首先，只建立了2因素的Cox回归模型，自变量包括年龄和吸烟状况，然后在此基础上，继续调整其它协变量（第2、3个Cox模型），最后作者建立了第4个模型，在此基础上加上心肌梗死面积作为协变量（IS）。

我们以全死因死亡率为例进行分析（下图A）。下图是森林图，取代了我们常见的回归分析结果表，结果简洁直观。

图A第一行，未调整，指的是单因素Cox回归结果（与上一部分结果一致），HR值的置信区间（横向）0.24-0.58，具有统计学意义。第二行为2因素Cox回归，校正年龄影响，P=0.85，没有统计学差异，则说明年龄对效应值HR影响很大，年龄是混杂因素（单因素和2因素的HR差别很多，那是年龄加入造成的，所以年龄带领了偏差）；第三行、第四行纳入更多的协变量，结果几乎没有差别，说明其它变量不太是混杂变量，或者造成的偏倚较小。

很多人不明白，为什么第二行校正年龄后P=0.85，没有统计学意义，为什么说年龄是影响因素影响比较大呢？这得结合第一行来分析。第一行，年龄不纳入模型，则吸烟对死亡的影响P小于0.05，而第二行年龄放入进去后，吸烟对死亡的影响P大于0.05，这不就恰恰说明年龄的干扰作用存在吗？干扰左右是为混杂偏倚。