结构方程实战演练|如何调节变量效果确定？

Danliel88 2018-07-30

展开全文

调节变量（moderator， interaction variable）也称为干扰变量，定义为一个变量可以系统性的改变自变量与应变量之间相关形式或强度。调节变量带来的影响叫做调节作用(moderating effect)，经常也被称为交互作用(interactive effect)。

解释一下：打个比方，我是一个穷B（X，自变量），但是我做了一个平时不会做的行为（成为B站大会员，Y，因变量），因为这是后有一个干扰变量的存在（B站搞活动），干扰变量同时影响了X和Y。那么这时候B站会员半价就是一个调节变量。比较常见的干扰变量，譬如说小三，同时影响了情侣（X）和分手（Y），对情侣（X）的作用为负，对分手（Y）的作用为正，因为加速了分手。

但是如果箭头换成下图，这种模型叫做中介模型，如果解释成因为我这种穷B太多了，导致B站大会员卖不出去，所以搞活动半价，最终很多人变成了大会员！！这竟然似乎也可以。所以大家不要太相信论文里面写的东西，为了论文能发表，为了使结果有统计学意义，作者可能只选择对他有利的数据。即使最后结果出来了，不是他最初的设想，他都会想着法圆回去的。

引用Disraeli 的一句话，有三种谎言：谎言、糟糕透顶的谎言和统计资料。

所以，哪怕C刊的文章，老铁们也要心存质疑。

干扰变量有两种影响X和Y的形态：1）在传统模型中影响自变量与应变量之间相关的强度；2）改变自变量与应变量之间相关的形式。

第一大种情况，普通回归，Y为观察变量的时候

看大前提哈，Y是连续的观察变量的时候，检验干扰变量的时候，我们根据X和干扰（M）的资料类型，选择不同的统计方法。X和M的资料类型都有两种，连续型和分类型。这里我们的Y只能是连续资料，如果要分类的，去隔壁的逻辑回归，不能用SEM。所以需要四种不同的统计方式。见下图，所以我们待会的检验操作也要分成下面的四种思路。

case1 XM均为类别资料

方法：I*J两因素析因设计资料的方差分析

原理：

这里我根据我有的资料随便选几个变量了哈，不一定有意义，为了演示操作。这里面城乡为X，性别为M，大众媒体为Y。模型见下图。

换个形式看更清楚，见下图。

所以，如果我们想检验M的影响，换个角度就是检验M对Y有没有影响，X对Y有没有影响，X和M的交互作用对Y有没有影响。

这时候我们检验就变成了I*J两因素析因设计资料的方差分析，我们重点检验的就是下图红色部分，AB交互效应。

那这就好处理了，SAS和SPSS操作就行。

SAS程序：

proc anova;

class a b;

model x=a b a*b;

run;

SPSS操作：

选择分析--一般线性模型--单变量

Y、M、X的放置位置见第二张图。

结果的意义：见下图，交互项的显著性小于0.05，表示干扰的效果存在。

如果要绘图的话，

刚才选项步骤（分析--一般线性模型--单变量）那里把绘图选上。

然后把水平轴和单图放上X和M，单击添加。

图做出来就是下面这样了。

好哒~over~我们进入下一个case。

case2：X为连续的，M是分类资料

方法：检验（非）标准化系数

原理：这时候相当于将样本根据M分为不同的层级，然后每一层都有一个回归函数可以跑出来，再比较各个不同的回归函数的系数是否有差异来判断（检验）不同层级的样本是否有差异。这里的回归系数的比较可以用标准化回归系数来比较，也可以用非标准化回归来比较，各有优劣。

这时候的X要不止一个变量了，要不然跑不了回归。回归模型随便写一下，大概就下面这样子。

Y1=α1+b1X1+b2X2+b3X3+ε

Y2=α1'+b1'X1'+b2'X2'+b3'X3'+ε

这时候分层跑出两个回归模型（如果M是二分类变量的话，M是三分类变量当然就跑出三个回归模型），利用Permutation test、chowreg等等方法，比较两个回归模型的系数是否有差异，如果有差异的话，代表存在干扰，如果没有差异的话，代表干扰不存在。

第一步：跑分组回归模型

sas操作可以参考这篇论文

Bell B A, Ene M, Smiley W, et al. A multilevel model primer using SAS PROC MIXED[C]//SAS Global Forum. 2013, 433.

paper里面有详细的介绍怎么利用SAS里面的PROC MIXED程序做分层回归。里面介绍了两层、三层、三层有序资料三种类型资料的SAS程序。题主懒，老铁们自己看。

SPSS分层回归：

①现将资料分层，我们还是用性别做干扰变量，所以还是用M分层

见下图选择数据-拆分文件-比较组-把性别选进去-确定

嗯呢，就分层成功啦。

②回归：这时候点击分析-回归-线性-选入因变量、自变量就可以啦

这时候就会跑出两个回归模型，然后根据标准化回归系数或者非标准化回归系数进行比较两个回归模型是否有差异

比较回归系数是否有差异

知乎已经有人建楼了，老铁们可以去看看同一个模型两组不同样本下，回归系数间的差异性检验，我就不赘述了。

这里关于选择非标准化系数有一篇经典文献

Baron R M, Kenny D A. The moderator–mediator variable distinction in social psychological research: Conceptual, strategic, and statistical considerations[J]. Journal of personality and social psychology, 1986, 51(6): 1173.

有兴趣的老铁可以看看。

case3 X为类别资料，M为连续变量

方法：层级回归

原理：把X转换成虚拟变量（dummy variable），建立新的回归方程Y=X+M+XM，这个回归模型就是检验X、M、X和M的交互作用对Y的影响。但是这里的X是类别资料，所以不能简单的线性回归就可以了。

这里歪个楼，关于虚拟变量的回归模型，老铁们可以去看Damodar N. Gujarati和Dwan C. Poter写的《计量经济学》，中国人民大学出版社，第9章详细的给大家介绍了虚拟变量回归。

这里有一篇经典的文献介绍了分层回归（hierarchical regression），并实践应用，感兴趣的老铁可以回去读。Hult G T M, Ketchen D J, Arrfelt M. Strategic Supply Chain management: Improving Performance through a Culture of Competitiveness and Knowledge Development[J]. Strategic Management Journal, 2007, 28(10):1035–1052.

操作：

这里我随便取性别作为控制变量、传统媒体（连续变量）作为M，全媒体作为X，行为（连续变量）作为Y

①如果X是潜变量的话，因为每一个潜变量的观察变量不一定一样多，所有在做回归检验之前要将item parcel加总平均（mean center）。（item parcel也有其他的称呼，如summated index，summated scale，minimalist test, composit scale)，楼主这里为了简便，所以没有用item parcel，老铁们如果问卷复杂的话，这里要记着。

②标准化所有的变量以减少多重共线性

见下图选择分析-描述统计-描述-将刚才说的XYM三个变量选入-最下面（将标准化得分另存为变量）勾上。就可以将变量都标准化啦。注:这里的控制变量性别不用选进去，要不然一标准化什么都没有了。

③X和M计算干扰项，传统媒体M，全媒体X

选择转换-计算变量-然后就是标准化后的全媒体*标准化后的传统媒体

（注：这里的字我打错了，图片里面应该写“干扰”，而不是“交互”，反正名称而已，叫阿猫阿狗都行，但是怕弄混了，所以要记得这里指的是干扰。）

④执行分层回归

先放控制变量，再放主变量，最后放调节变量。

选择分析-回归-线性-因变量栏放入Y-第一层自变量栏放入控制变量-点击下一页

第二层放入主变量，然后点击下一页

第三层放入干扰项，然后点击statistics，这里一定要选上R方的变化

原理：选择R-square change的原因是，在回归中，增加的变量越多，那么R-square就会提升。每多放几个变量进去，R-square的变化量能不能达到显著，如果显著代表放入的变量是有用的。如果第三层的R-square的检验显著，那么证明干扰作用是存在的。如果不显著，干扰作用则不存在。

结果解释

《模型摘要》这张表，检验的是我们分三层做的三个模型是否有统计学意义，模型1是检验控制变量（性别）是否有统计学意义，可以看到显著性接近1，表示性别是没有影响的。但是模型2和模型3，尤其是模型3，有显著性，表示干扰作用的效果存在。即模型存在干扰。

看《系数》这张表，判断干扰的方向。显然，干扰是负向的。

超纲补充：送给大家的超纲补充，拿好不谢

主效应补充：当有多个X，见下图，这时候的干扰有2个，一个是M对X1Y的干扰，一个是M对X2Y的干扰，

所以计算干扰作用的时候，要计算

M1=标准化后的M*标准化后的X1

M2=标准化后的M*标准化后的X2

还有计算X1X2的交互作用，检验一下

interaction=标准化后的X1*标准化后的X2

这时候所有的干扰和交互都放在刚才回归的第三层就可以了。同理，如果有更多个X的时候类推。

控制变量补充：如果有多个控制变量，如年龄，文化等等，统一一起放在第一层就OK啦。如果在文献中没有提及控制变量，那么文章就不能使用控制变量。控制变量成立的两大条件：前辈有人提及，理论上证明确实证明有用。只要是回归模型，每一个变量都是其他变量的控制变量。控制变量只存在显著或者不显著，如果控制变量不显著，那么控制变量就是一般的变量，没有起到控制效果。和干扰一样，干扰如果没有起到作用，那么干扰就是一个普通的自变量。为了得到正确的，可以反映现实的模型，如果存在控制效应的时候，控制就会contaminate模型，可能会造成模型的错误估计，可是，如果模型本身不存在控制，而去估计控制时，则会造成另一个维度的contaminate。会削弱真实的效果。一般不把人口统计学变量当做控制变量。

思路补充：这里我们用的回归计算干扰和Case1里面用Anova计算干扰是有区别的，anova是比较平均数，回归是比较斜率。