一文理清混杂因素vs交互作用vs调节效应vs中介效应

计量经济圈 2022-05-15

展开全文

一文理清

混杂因素vs交互作用

vs调节效应vs中介效应

Summary

一文系列

众所周知，在研究中，或多或少我们都会遇到变量（Variable）。

变量（Variable）：

亦称观察指标。变量的取值表示观察值（或测量值）或对应的观察结果，亦称资料（data）。

变量可分为：

① 连续型变量（continuous variable）；
② 离散型变量（discrete variable）;

还会遇到危险因素（risk factor）。

危险因素（risk factor）：

亦称病因（cause）。即能使疾病发生概率升高的因素。

可分为：

① 必要病因（necessary cause）：
指引起某种疾病发生必须具备的条件，一旦该因素缺乏，疾病就不会发生。
② 促成病因（contributory factor of cause）：
指某因素存在时可能导致某病发生的概率增加，但该病发生时并非一定具备该因素，则该因素称为促成病因。

我们往往希望从各种暴露因素中找到危险因素。然而，暴露因素与疾病之间的关联，可能是因随机误差所致，也可能是真正具有统计学意义的关联。

统计学关联也可以是：

① 虚假关联；← 选择偏倚和信息偏倚
② 间接关联；← 混杂偏倚
③ 因果关联；

因此：要排除各种虚假关联；调整和分析间接关联；从而评价病因学关联。

上图的理解是错误的

该图的理解是正确的

为了揭示关联，我们引入了误差（error）。

总有人问：误差（error）和偏倚（bias）是什么关系？

误差（error）：

指研究的测得值与真实值的偏差。

误差可分为：

① 随机误差（random error）
不可避免，包括：抽样误差、随机测量误差
② 系统误差（systematic error）
亦称偏倚（bias），指在研究各环节（设计、实施、分析、推断）中存在的各种对暴露因素与疾病关系的错误估计，系统性地歪曲了两者间地真实联系。

偏倚（bias）包括：

① 选择偏倚（selection bias）；
② 信息偏倚（information bias）；
③ 混杂偏倚（confounding bias）；

选择偏倚和信息偏倚 → 虚假关联

混杂偏倚 → 间接关联

关联的分类：

① 虚假关联（spurious assocation）：

亦称人为关联。指本来两件事间不存在统计学上的关联，但在研究过程中，由于没考虑到设立对照组，对照组选择不当，观察指标不客观、样本的代表性不强或其他偏倚存在时，可造成研究因素与疾病间的虚假关联。
虚假关联需排除。

② 间接关联（indirect assocation）：

亦称继发关联。指由混杂偏倚所致的关联。

混杂偏倚（confounding bias）：

指在估计暴露与疾病之间联系时，受到一个或多个（与研究的疾病（Y）有密切关系，又与暴露因素（X）有密切联系的）潜在危险因素的影响，从而歪曲了所研究因素与疾病间的真实联系。

混杂因素（confounding factor）：

引起混杂偏倚的因素。

当一个潜在混杂因素在研究组间分布不均衡时，才能起到混杂作用，产生混杂偏倚。

混杂因素必须3个特征：

a）混杂因素必须是所研究疾病（Y）的危险因素；
b）混杂因素必须与所研究的暴露因素存在统计学联系；
c）混在因素不应是暴露因素与疾病因果链中的一个中间环节；

③ 因果关联（causal assocation）：

指一定的原因产生相应的结果。在排除虚假关联和间接关联之后，才能对两事件间的因果关联进行判断。因与果在空间上相伴存在，在时间上总是先后相随。

常见有：

a）单因单果；
b）单因多果；
c）多因单果；
d）多因多果；

疾病的发生是多个病因共同作用的结果，想要确定某种因素与疾病间的因果联系，必须按照因果关联的标准进行严格筛选。

因果关联的推断标准（Hill's guideline）：

① 关联强度（strength）；

② 时间顺序（temporality）；

③ 关联特异性（specificity）；

④ 关联可重复性（consistency）；

⑤ 剂量-反应关系（dose-response）；

⑥ 分布一致性（coherence）；

⑦ 生物学合理性（biologic plausibility）；

⑧ 实验证据（exprerimental evidence）；

⑨ 相似性（analogy）；

混杂因素（confounding factor）

上文已经介绍了。混杂因素属于间接关联的范畴。

混杂因素（confounding factor）：

引起混杂偏倚的因素。

当一个潜在混杂因素在研究组间分布不均衡时，才能起到混杂作用，产生混杂偏倚。

混杂因素必须3个特征：

a）混杂因素必须是所研究疾病（Y）的危险因素；
b）混杂因素必须与所研究的暴露因素存在统计学联系；
c）混在因素不应是暴露因素与疾病因果链中的一个中间环节；

混杂偏倚（confounding bias）：

间接关联（indirect assocation）：

亦称继发关联。指由混杂偏倚所致的关联。

如何校正混杂因素？（adjusted for）

设计阶段：
① 限制条件；
② 配比；
③ 随机化；
统计分析阶段：
① 多因素分析；
② 分层分析；
③ 倾向性评分分析；
④ 工具变量分析；

多因素分析校正混杂因素：

在各种观察性研究中，我们常常可以看到研究者会在结论中声明：在校正了年龄、性别...等等各种因素后，所研究因素的HR/OR/β值。

事实上，多因素分析校正就是在回归模型中引入已知或潜在的混杂因素，通过计算获取在其他变量（协变量）不变的条件下，研究变量对结局独立的效应。

因此，通过在回归模型中对混杂因素进行矫正，能够平衡掉混杂因素在研究因素分组中的分布，以突出研究因素的独立作用。

当然，在观察性研究中，就算我们校正了足够的已知混杂因素，仍然可能存在未知的混杂因素，这就是我们阅读过的观察性研究的文献在limitation部分经常提及的残余混杂（residual confounding）。

残余混杂只能尽量减少，但没法消除，总会有潜在的混杂偏倚存在。这也是观察性研究的结果在循证医学中证据级别较低的原因之一。

协变量（covariate）

在前文所述多因素分析校正混杂因素部分时，我们提到了协变量。

协变量（covariate）：

指与因变量（Y）有线性相关，并在探讨自变量（X）与因变量（Y）关系时通过统计技术加以控制的变量。

常用的协变量包括：

因变量的前测分数；
人口统计学指标；
与因变量明显不同的个人特征等；

协变量属于控制变量的一种。

控制变量包括：

① 可以通过实验操作加以控制的变量：

如：照明、室温等) ；
也称为无关变量；

② 由于受实验设计等因素的限制，只能借助统计技术来加以控制的变量：

属于统计概念；
也称为协变量；

协方差分析

( analysis o f covariance，ANCOVA) ：

概念：是对实验进行统计控制的一种方法。是关于如何控制协变量对因变量的影响作用，从而更有效地分析实验处理效应的一种统计分析技术。

思想：根据因变量对协变量的回归系数，从因变量中扣除受协变量影响的部分，从而正确分析自变量对因变量的影响。

举例：（一个协变量的单因素实验设计）

假定因变量和协变量之间存在线性关系，设实验处理具有 k 个水平, 每个处理组有 n 个观测, 单因素协方差分析模型可以表示为:

从上面模型的表示可以看出，协方差分析是方差分析与回归分析所用线性模型的组合。

即，在协方差分析模型中包含：

a）因素的处理效应τi ；
b）回归分析的回归系数β ；

使用的前提条件：

随机分配被试；
因变量服从正态分布；
方差齐性；
因变量和协变量之间存在线性关系；
回归斜率齐性：
对于每一个组的数据，协变量对因变量的回归系数不存在显著差异；
协变量不含测量误差；

一般情况下，协方差分析中：

自变量( 处理因素) 为：离散型变量；

因变量和协变量为：连续型变量；

交互作用（Interaction）

交互作用属于评价病因学关联的范畴。

当两个或多个因素同时作用于一个结局时，可能产生交互作用（interaction）。

交互作用（Interaction）：

亦称效应修饰作用（effect modification），是指一个因素（X1）各个水平之间所致反应量（Y）的差异随着其他因素（X2…）的不同水平变化而发生变化的现象。该因素（X2）则称为交互因素。

效应修饰作用（effect modification）：

亦称交互作用（Interaction），指第三种因素对暴露与结局关系强弱或暴露在结局上作用大小的影响或修饰。我们把这种暴露和结局外的第三种因素叫效应修饰因素（effect modifier）。

当两个或两个以上因子共同作用于某一事件时，其效应明显不同于该两个或两个以上因子单独作用时的和与（或）积，称因子之间存在效应修饰。

主效应：

由一个因素的不同水平引起的因变量的变异，有几个因素就有几个主效应。

简单主效应：

当交互作用显著时，为考查一个因素在另一个因素某个水平上的处理效应，以便具体确定它的处理效应在另一个因素哪个水平上是显著的，即简单主效应，也叫简单效应。

计算：

主效应个数：N
交互作用个数：2^N-N-1
简单主效应个数：n（N-1）

其中：N：因素个数；n：所有因素水平数之和

交互作用的存在说明：

同时研究的若干因素的效应非独立。

交互作用意味着两变量之间（X-Y）的因果关系随交互变量的取值不同而产生变化。

交互作用的效应可度量一个因素不同水平的效应变化依赖于另一个或几个因素的水平的程度。

交互作用原理如下：

效应修饰类型：

① 增强作用（正交互）；

② 拮抗作用（负交互）；

效应修饰模型：

① 相加模型：相加交互作用（additive interactions，INTA）
若交互作用不存在，则两个或两个以上因素共同作用于某一疾病时，其效应等于这些因素单独存在时所产生的作用之和。
② 相乘模型：相乘交互作用（multiplicative interaction，INTM）
若交互作用不存在时，则两个或两个以上因素共同作用于某一疾病时，其效应等于这些因素单独存在时所产生的作用之积。

二分类解释变量交互作用：

① 相乘交互作用：

定义：假设研究多风险因素中交互作用的两暴露因素为AB，则OR00表示AB均无暴露，即OR00＝1；OR10表示A暴露、B无暴露，OR01表示A无暴露、B暴露，OR11表示A、B均暴露。则相乘交互作用INTM＝ORA×B＝OR11/（OR10×OR01）；

在二分类logistic回归模型中：

ln[P/(1-P)] = β0 + β1A + β2B + β3A×B，OR10=exp(β1)；OR01=exp(β2)；

OR11=INTA=exp(β1 + β2 + β3)

判定：logistic 等回归乘积项95%CI不包含1，表明有相乘交互作用。交互项得到的OR值<1，拮抗作用；交互项 OR>1，协同作用。

② 相加交互作用：

定义：定量评价流行病学研究中暴露因素间及暴露因素与基因间相加交互作用需要3项指标：

a）交互对比度（interaction contrast ratio，ICR）又称交互作用超额相对危险度（relative excess risk due to interaction，RERI）；
b）交互作用归因比（attributable proportion due to interaction，AP）；
c）协同指数（the synergy index，S）；
3项指标定义：
a）RERI = ICR = OR11 - OR10 - OR01 + 1；
b）AP = ICR/OR11；
c）S = (OR11 - 1)/(OR10 + OR01)=(OR11 - 1)/(OR11 + 1 - ICR)；

判定：如果两因素有相加交互作用，则RERI 95%CI、AP 95%CI应不包含0，S 95%CI应不包含1。

超额相对危险度RERI以及归因比AP均>0，且可信区间不包括0， S>1且可信区间不包括1，表示存在交互作用，且为协同作用。RER1以及AP均<0，S<1，表示存在交互作用，且为拮抗作用。

计算置信区间CI的方法：

Delta法、Wald法、轮廓似然置信区间（profile likelihood confidence intervals，PL）法、variance recovery method和percentile bootstrapping等。

交互作用的相对性：

交互作用是相对的，在同一个研究里，既可以存在，同时又可以不存在，存在与否取决于使用什么效应指标进行分析。

有无统计学交互作用很大程度上取决于所选择的模型，所以在报告有无交互作用时，需要说明分析所用的模型。

效应修饰的识别：

识别交互作用的关键：一致性检验

如果一致性检验显示差异有显著性（p≤0.05），说明可能存在交互作用，即效应修饰因素各层的真实效应可能不同。

这时，没有一个单一的效应值可以代表各层的效应，因此估计无混杂的总效应将不再具有意义，重要的是描述交互作用，即分别报告各层的效应。

如果修饰因素和效应大小有一定的趋势或形态，则可进一步模拟和描述有关趋势或形态，这种交互作用可使用相关分析和回归分析来描述二者间的线性关系。

区别交互作用和混杂的关键也在于：一致性检验。

如果异质性检验显示差异无显著性（p>0.05），说明可能不存在交互作用，即可疑的效应修饰因素各层的真实效应可能是相同的，可以用一个加权平均效应值来表达。

如果这个平均效应值又与粗效应值一致，说明无混杂，反之，则说明粗效应存在混杂。

识别和测量效应修饰作用的分析方法：

① 回归分析；
② 分层分析；

① 多因素回归模型分析：

A）模型基础为相乘模型：
线性回归
B）模型基础为相乘模型：
Logistic回归模型、Cox比例风险模型、对数线性回归等

在多元回归分析里，检验交互作用的存在需要在回归方程里加入至少三个变量：暴露、效应修饰因素，以及由这两个可能的交互因素的乘积形成的新因素（或简称交互项）。

回归方程提供的对交互项的显著性检验就等于分层分析里的异质性检验，如果有显著性，说明交互作用可能存在。

多元回归的优点是：分析交互作用时可以同时控制其他因素对交互作用分析的影响。

② 分层分析：

即随机对照试验的亚组分析。

例如：发现某药物在男性病人中十分有效，而在女性中没有明显的作用，显示药物和性别有交互作用。该证据对未来用药使用十分重要：女性应避免使用此药。

又如：某暴露在儿童可引起严重疾病，而在成年人中没有明显的害处，说明该暴露和年龄间存在交互作用，儿童应是主要保护对象，应该尽可能避免暴露于该因素。

举例说明：回归分析中交互效应怎么解释？

研究者想要探索：高血压（X2）对患者生活质量（Y1）和死亡（Y2）的影响，同时考虑吸烟（X1）有没有对这种影响产生变化？

A）线性回归（结局指标为计量变量）解释：

Y1=β0+β1*X1+β2*X2+β3*X1*X2

=2.3-3.5*X1-4.6*X2-1.2*X1*X2

解读：

高血压（X2）与生活质量（Y1）的关系受吸烟（X1）的调节；
在不吸烟的人群中，有高血压患者相对于没有高血压的患者生活质量低4.6分；
在吸烟人群中，有高血压患者相对于没有高血压的患者生活质量低4.6+1.2分；
相当于就是说吸烟加强了高血压对生活质量的影响；
PS：这里我们也可以说吸烟与生活质量的关系受高血压的调节；

B）Logistic回归（结局指标为分类变量）解释：

Logit(P(Y2))= β0+β1*X1+β2*X2+β3*X1*X2

=1.5+0.89*X1+1.2*X2+0.2*X1*X2

解读：

高血压（X2）与死亡（Y2）的关系受吸烟（X1）的调节；
在不吸烟的人群中，有高血压患者死亡风险是没有高血压的exp(1.2)= 3.32倍；
在吸烟人群中，有高血压患者死亡风险是没有高血压的exp(1.2+0.2)=4.06倍；
相当于就是说吸烟增加高血压对死亡的风险；
注意：由于我们关注logistic回归的OR值，所以这里是先加系数，再计算OR值，类似于的还出现在HR或RR值的计算；

回归分析中发现交互效应可以进一步分析吗？

可以，分层分析是一个不错的选择。

效应修饰与混杂偏倚的区别：

① 效应修饰与研究设计无关，是研究中的客观现象。混杂偏倚存在与否取决于研究设计；
② 效应修饰与研究的有效性有关，作为客观效应，是需要研究者了解报告的。混杂是对研究真实性的一种歪曲，是研究中极力避免并防止发生的；
③ 效应修饰可以通过统计学方法加以定量描述，并评价，不能去除。混杂可以在资料分析阶段通过适当统计学方法分析排除；
④ 效应修饰分析目的为估计、报告其真实存在；混杂分析目的为校正、去除；

交互作用不同于混杂偏倚：

混杂偏倚是粗效应值估计里存在的一种偏倚，是需要控制和消除的；

而交互作用指效用的大小随第三因素暴露强度或剂量的变化而变化的现象；

当交互作用存在时，粗效应是否存在混杂已不重要，也无法判断，因为各层效应不同，不存在一个真实无偏的总效应可以与粗效应进行比较来判断混杂的存在。

因此，当发现交互作用时，结果报告的重点是交互作用，而不是对混杂的控制。

评价交互作用的目的和意义：

① 在资源有限的情况下，识别对某干预受益最大的人群（亚组）；
② 在某一主要暴露因素不容易施加干预的情况下，识别最有可能施加干预的互作协变量以降低主要暴露因素的效应；
③ 揭示暴露影响疾病发生的机制；
④ 提高评价某暴露因素对结局影响总效应的把握度；
⑤ 仅从统计学角度考虑，通常包含交互作用项的模型拟合数据更好；

效应修饰指标及可信区间估计：

调节作用（confounding factor）

调节效应（moderating effect）：

指两变量之间的因果关系随调节变量的取值不同而产生变化。

是指一个因素（X1）各个水平之间所致反应量（Y）的差异随着其他因素（X2…）的不同水平变化而发生变化的现象。该因素（X2）则称为交互因素。

调节变量( moderator, mod) ：

如果变量（Y）与变量（X）的关系是变量M的函数,称（M）为调节变量。就是说, Y与X的关系受到第三个变量（M）的影响。其所要解释的是自变量在何种条件下会影响因变量。

即，当自变量与因变量的相关大小或正负方向受到其它因素的影响时，这个其它因素就是该自变量与因变量之间的调节变量。

它界定了自变量（X）和因变量（Y）之间关系的边界条件，既可以是质化形式的变量( 如性别) , 也可以是量化形式的变量( 如奖励水平) 。

在相关分析当中, 调节变量是影响两变量零阶相关的第三变量。

当然，如果两变量的关系因第三因素而发生了方向性的改变, 也可将这第三因素称为调节变量。

在方差分析中, 如果自变量与限定自变量作用之条件的另一因素之间出现了交互效应，则称另一因素为调节变量。

调节效应的计算与确定：

对调节效应的测量和检验与自变量和调节变量的测量水平有关。

当调节变量和自变量都是类别变量时做方差分析。
当两者的交互效应显著时，则说明调节变量产生了调节效应。
两者的主效应显著与否与调节效应的假设没有必然联系。
之后, 可以通过简单效应分析进一步了解调节变量的具体作用。
当调节变量是连续变量时, 无论自变量是何种变量, 均可采用层次回归技术来进行检验。
即先分别考察自变量和调节变量对因变量的主效应大小，然后将“ 自变量 ×调节变量” 乘积项纳入回归方程，若该项系数显著，则表明调节效应显著。
当调节变量是类别变量，自变量是连续变量时要做分组回归分析。

Cohen 等曾介绍过两回归系数差异的检验方法。

应考虑先进行回归系数差异检验，再进行两个斜率的单独检验。

若回归系数的差异显著，则调节效应显著。

以上均是针对显变量而言的，当调节变量和自变量两者中至少有一个是潜变量时, 可以分为两种情形：

一是调节变量是类别变量, 自变量是潜变量, 可用结构方程模型中的多样本比较模块来做分析。多样本比较可以在结构方程模型的基础上, 对不同组别的测量误差、载荷、路径系数、以及潜变量的均值等做差异显著性检验。
二是调节变量和自变量都是潜变量, 可用 Marsh 等提出的无约束模型来考察潜变量的交互效应。

此外, 有时调节变量与自变量属于不同层次( 如学校水平 vs.个体水平) 的变量，在这种多层、多水平数据的处理中，需要用多层线性模型来分析。

此时, 调节变量和自变量一般都属于连续型变量。对调节作用的解释，除了看相应参数的大小外，还需综合考虑受调节关系的性质和调节系数的正负方向。

调节效应分析：

在做调节效应分析时,通常要将自变量和调节变量做中心化变换(即变量减去其均值）。

最简单常用的调节模型，即假设Y与X 有如下关系：

Y = aX + bM + cXM + e

可以把上式重新写成：

Y = bM + ( a + cM ) X + e

对于固定的M ,这是Y对X 的直线回归。Y与X 的关系由回归系数a + cM 来刻画，它是M，的线性函数, c衡量了调节效应(moderating effect)的大小。

对模型中调节效应的分析主要是估计和检验β3：

如果β3显著(即H0∶β3 = 0的假设被拒绝) ，说明M 的调节效应显著。

熟悉交互效应（interactioneffect）的读者可以从模型看出：

β3其实代表了X与M的交互效应，所以这里的调节效应就是交互效应。这样，调节效应与交互效应从统计分析的角度看可以说是一样的。

调节效应分析方法：

调节效应分析和交互效应分析大同小异。这里分两大类进行讨论：

① 一类是所涉及的变量(因变量、自变量和调节变量)都是可以直接观测的显变量(observable variable) ；
② 另一类是所涉及的变量中至少有一个是潜变量( latent variable) ；

① 显变量的调节效应分析方法：

调节效应分析方法根据自变量和调节变量的测量级别而定。

变量可分为两类：

A）类别变量( categoricalvariable) ：
包括定类变量、定序变量；
B）连续变量( continuous variable)：
包括定距变量、定比变量；

定序变量的取值比较多且间隔比较均匀时，也可以近似作为连续变量处理。

表1分类列出了显变量调节效应分析方法：

a）当自变量和调节变量都是类别变量时做方差分析；
b）当自变量和调节变量都是连续变量时,用带有乘积项的回归模型,做层次回归分析:
1) 做Y对X和M 的回归,得测定系数R21；
2) 做Y对X、M 和XM 的回归得R22 ;
3) 若R22 显著高于R21 ,则调节效应显著；或者,做XM的偏回归系数检验，若显著，则调节效应显著；
c）当调节变量是类别变量、自变量是连续变量时，做分组回归分析；
d）但当自变量是类别变量、调节变量是连续变量时,不能做分组回归,而是将自变量重新编码成为伪变量( dummy variable) ,用带有乘积项的回归模型,做层次回归分析；

② 潜变量的调节效应分析方法：

有关潜变量的分析需要用到结构方程模型，本文不详细阐述，可以参看参考文献【6】。

调节效应和交互效应的区别：

调节效应和交互效应这两个概念不完全一样。

① 在交互效应分析中,两个自变量的地位：

a）可以是对称的，其中任何一个都可以解释为调节变量；
b）也可以是不对称的，只要其中有一个起到了调节变量的作用,交互效应就存在；
这一点从有关讨论交互效应的专著中可以看出(例如,显变量之间的交互效应,潜变量之间的交互效应；

② 但在调节效应中，两个自变量的地位：

哪个是自变量，哪个是调节变量，是很明确的，在一个确定的模型中两者不能互换。

③ 和交互效应相比, 从强到弱或从强到无的相关关系变化趋势会使调节变量的作用体现得更为明显：

因为交互效应分析虽然在统计上更为有力一些，但却没有残差主效应。因此，理论上，自变量在调节变量的另一水平上没有效应的结果可能会更有说服力。
在多层线性模型分析中，第二层的变量若影响到第一层的预测关系，那第二层的变量也可看作调节变量。
因此, 多层线性模型实际上解决的是跨层次的调节作用问题。

举例看交互作用和调节作用的区别：

例如：

研究问题：研究数学能力（Y）的性别差异（X1），将年级（X2）作为调节变量，这个问题关注的是性别差异,以及性别差异是否会随年级而变化。

实验设计：如果从小学一年级到高中三年级都获得了各年级学生有代表性的样本，每个年级各用一份测试题，所得的数据就可以进行上述分析。

注意：同样的实验设计却不能用于做年级为自变量、数学能力为因变量、性别为调节变量的分析。

因为：各年级的测试题目不同，得分没有可比性,因而按调节效应的分析方法，分别不同性别做数学能力对年级的回归没有意义。要做数学能力对年级的回归，应当用同一份试题测试所有年级的学生。

中介效应（mediating effect）

中介效应（mediating effect）也属于探索病因联系的范畴。

中介变量（mediator，med）：

指考虑自变量（X）对因变量（Y）的影响,如果Ｘ通过影响变量（M）来影响Ｙ，则称Ｍ为中介变量。

中介效应的两种类型：

中介效应的分析（Mediation analysis）：

假设变量已经中心化或标准化，可用下图所示的路径图和相应的方程来说明变量之间的关系。

其中：

ｃ：是Ｘ对Ｙ的总效应；
ab：是经过中介变量Ｍ的中介效应；
ｃ′：是直接效应；

当只有一个中介变量时,效应之间有如下关系：

ｃ=ｃ′+ab

中介效应的大小用：ｃ-ｃ′=ab 来衡量

中介效应分析方法：

中介效应是间接效应，无论变量是否涉及潜变量,都可以用结构方程模型分析中介效应。

如果所有变量都是显变量，可以依次做下图中的三个回归分析：

无论是结构方程分析还是回归分析，用统计软件都可以得到：

c的估计值：ｃ；
ａ,ｂ,ｃ′的估计估计值：a, b, c′；
以及相应的标准误；
中介变量的估计值是 ab；

衡量中介效应的相对大小的方法：

① 中介效应与总效应之比：

ab/（ｃ′+ab）

② 中介效应与直接效应之比：

ab/ｃ′

假设Ｙ与Ｘ的相关显著，意味着回归系数c显著 (即Ｈ0∶ｃ=0的假设被拒绝)。

在这个前提下考虑中介变量Ｍ，提出了一个中介

效应检验程序：

一般分为三步：

① 分别检验每一个变量（包括自变量X和中介变量M）的主效应是否显著；
② 将自变量X放入回归方程中，检验自变量X的效应；
③ 将中介变量M也移入回归方程中，检验自变量X的效应：若自变量的效应与之前相比大大减少甚至变为零，那么该变量的确就起到了中介的作用。

注意：变量的中介作用必须建立在理论和现实的基础上，正如前所述，自变量必须在现实或理论上可以影响第三变量的变化，否则，即使数据支持该变量有中介效应，该结果也是无效的。

中介效应和调节效应的区别：

中介变量必须是自变量X的结果，且必须是应变量Y的前提；

调节变量必须不是自变量X的结果(这个未必)；

如果一个变量与自变量或因变量相关不大，它不可能成为中介变量，但有可能成为调节变量；
理想的调节变量是与自变量和因变量的相关都不大：
有的变量，如性别、年龄等，由于不受自变量的影响，自然不能成为中介变量。但许多时候都可以考虑为调节变量；
对于给定的自变量和因变量，有的变量做调节变量和中介变量都是合适的，从理论上都可以做出合理的解释；
总的来说，模型建立有赖于对变量的区分：
变量的区分和建模都依靠学科理论或经验常识。考虑将一个变量作为调节变量或中介变量分析之前，从学科理论或经验常识的角度要能够解释得通。

有中介效应的调节效应：

设要研究学生行为 (X )对同伴关系 (Y )的影响。以往的研究发现，老师的管教方式 (U)是调节变量，老师对学生的喜欢程度 (W )是中介变量。据此可以建立如下图所示的模型。

我们知道 , UX 是调节效应项, 如果它影响 W, 而 W 影响 Y, 说明调节效应 (至少部分地)通过中介变量 W 而起作用，称这样的调节变量是有中介的调节变量。

从上面分析步骤可知：

检验有中介的调节效应时，先要检验调节效应 ,然后检验中介效应。

有调节效应的中介效应：

在知道管教方式 (U )是调节变量、喜欢程度(W )是中介变量以后, 也可以建立如下图所示的模型。

与之前的模型不同的是乘积项, UX 换成了UW。考虑 X 对 Y 的影响时 , W 仍然是中介变量。但 U 不是 Y 与 X 关系的调节变量 ,而是 Y 与 W 关系的调节变量。就是说 ,经过 W 的中介效应受到 U 的影响,所以称 W 为有调节的中介。

从上面分析步骤可知：

检验有调节的中介效应时，先要检验中介效应，然后检验调节效应。

同时注意到：有调节的中介作用常见的形式往往是分类变量：

总结 .

补：不同效应在医学研究

下面，我们举一篇文章，来看一下不同效应在医学研究中的作用：

通过题目：Platelet Count Affects Effificacy of

Folic Acid in Preventing First Stroke，我们不难发现：

自变量：Folic Acid Treatment 叶酸治疗

因变量：First Stroke 初次卒中

调节变量：Platelet Count 血小板计数

本文研究目的：本研究旨在探究PLT计数较低和总半胱氨酸水平（tHcy）较高是否增加首次发生卒中的风险。若该关系得到证实，叶酸治疗能否在一级预防中发挥作用。

由研究目的可以发现：

总半胱氨酸水平也是一个调节因素。

根据示意图：

感觉情况发生了变化：

自变量：Folic Acid Treatment 叶酸治疗

因变量：First Stroke 初次卒中

Platelet Count 血小板计数和总半胱氨酸水平则发生了变化：两者看上去更像是中介变量

中介变量1：总半胱氨酸水平；

中介变量2：Platelet Count 血小板计数；

并且，由生物学知识可得：

中介变量1：总半胱氨酸水平在先

中介变量2：血小板计数在后

再看一下研究结果：

由研究结果可以发现：

本文的实验设计和研究分析，揭示：

Table2：PLT作为调节变量在X对Y的影响中发挥作用；

Table3：并且探索了PLT调节tHcy调节在X对Y的影响中发挥作用；

本文所用方法：

Similarly, the HRs and 95% CIs of fifirst stroke in response to folic acid supplementation across each PLT/tHcy subgroup were estimated and their interactions were tested. A 2-tailed p< 0.05 was considered to be statistically signifificant in all analyses. Data were analyzed using the statistical package R version 3.1.2 (R Foundation for Statistical Computing, Vienna, Austria) and Empower (X&Y Solutions, Inc. Boston, Massachusetts).

参考：

[1] 唐金陵. 第二十章: 流行病学研究数据统计分析概述. 见: 李立明主编. 《流行病学》. 第一卷. 第三版. 北京: 人民卫生出版社: 2015: 369-397.

[2] 聂志强, 欧艳秋, 庄建, 曲艳吉, 麦劲壮, 陈寄梅, 刘小清. 实现logistic与Cox回归相乘相加交互作用的临床实践宏程序. 中华流行病学杂志, 2016, 37(5): 737-740.

[3] epiR: Tools for the Analysis of Epidemiological Data. R package version 2.0.19.
[4] https://max.book118.com/html/2016/1031/60871118.shtm

[5] https://max.book118.com/html/2017/0216/92080186.shtm

[6]温忠麟,侯杰泰,张雷.调节效应与中介效应的比较和应用[J].心理学报,2005(02):268-274.

[7]张莉,林与川.实验研究中的调节变量和中介变量[J].管理科学,2011,24(01):108-116.

[8]温忠麟,张雷,侯杰泰.有中介的调节变量和有调节的中介变量[J].心理学报,2006(03):448-452.

[9]卢谢峰,韩立敏.中介变量、调节变量与协变量——概念、统计检验及其比较[J].心理科学,2007(04):934-936.DOI:10.16719/j.cnki.1671-6981.2007.04.056.

[10]Rijnhart, Judith J M et al. Mediation analysis methods used in observational research: a scoping review and recommendations. BMC Med Res Methodol. 2021;21(1):226. Published 2021 Oct 25. doi:10.1186/s12874-021-01426-3

[11]Pourhoseingholi MA, Baghestani AR, Vahedi M. How to control confounding effects by statistical analysis. Gastroenterol Hepatol Bed Bench. 2012;5(2):79-83.

[12] https://zhuanlan.zhihu.com/p/99435552

[13] https://blog.csdn.net/qq_24339451/article/details/103718981

[14] https://www.zhihu.com/question/60520004

[15] https://zhuanlan.zhihu.com/p/264342286

[16] Kong X, Huang X, Zhao M, Xu B, Xu R, Song Y, Yu Y, Yang W, Zhang J, Liu L, Zhang Y, Tang G, Wang B, Hou FF, Li P, Cheng X, Zhao S, Wang X, Qin X, Li J, Huo Y. Platelet Count Affects Efficacy of Folic Acid in Preventing First Stroke. J Am Coll Cardiol. 2018 May 15;71(19):2136-2146. doi: 10.1016/j.jacc.2018.02.072. PMID: 29747834.

现在：