SPSS实例教程：多重线性回归，你用对了么？

医学院的石头 2018-12-16

展开全文

在实际的医学研究中，一个生理指标或疾病指标往往受到多种因素的共同作用和影响，当研究的因变量为连续变量时，我们通常在统计分析过程中引入多重线性回归模型，来分析一个因变量与多个自变量之间的关联性。

一、多重线性回归的作用

多重线性回归模型在医学研究领域得到了广泛的应用，其作用主要体现在以下几个方面：

1、探索对于因变量具有影响作用的因素；

2、控制混杂因素，评价多个自变量对因变量的独立效应；

3、用已知的自变量来估计和预测因变量的值及其变化。

二、多重线性回归的形式

多重线性回归的一般表达形式为：

由表达式可以看出，每个因变量的实际测量值yi由两部分组成，即和ei 。

为估计值，即在给定自变量取值时因变量y的估计值，表示能由自变量决定的部分；ei为残差，即因变量实测值yi与估计值之间的差值，表示不能由自变量决定的部分，而对于残差的分析是多重线性回归建模过程中需要重点关注的地方。

此外在多重线性回归的表达式中，b0为常数项，表示当所有自变量取值为0时因变量的估计值；bi为偏回归系数，表示当其他自变量不变时，xi每改变一个单位时所引起的的变化量。

三、多重线性回归的适用条件

多重线性回归模型作为一种统计模型，它有严格的适用条件，在建模时也需要对这些适用条件进行判断。但是许多使用者往往忽视了这一点，在使用过程中只是单一的构建模型，最终很有可能得出错误的结论。因此在应用多重线性回归之前，我们应该了解它需要满足哪些前提条件呢？

总结起来可用4个词来概况：线性(Linear)，独立(Independence)，正态(Normality)，齐性(Equal variance)，缩写为LINE原则。

(1) 线性：各自变量xi与因变量yi之间存在线性关系，可以通过绘制散点图来进行判断；

(2) 独立：因变量yi的取值之间相互独立，反映到回归模型中，实际上就是要求残差ei之间相互独立；

(3) 正态性：构建多重线性回归模型后，残差ei服从正态分布；

(4) 方差齐性：残差ei的大小不随xi取值水平的变化而变化，即残差ei具有方差齐性。

只有准确把握了LINE核心原则，才能够保证构建符合统计学要求的多重线性回归模型。但是，由于多重线性回归模型具有一定的“抗偏倚性”，如果只是想通过构建方程来探讨自变量和因变量之间的关联性，而非对因变量进行预测，那么后面两个条件可以适当放宽。

此外，还应该注意以下几点：

(5) 因变量yi为连续性变量，而非分类变量；

(6) 自变量xi可以为连续变量，也可以为分类变量，当自变量为多分类无序变量时，则需要设置哑变量，当为有序变量时，则需要根据等级顺序进行赋值。

(7) 对于自变量xi的分布特征没有具体的限定，只要求自变量xi间相互独立，不存在多重共线性；

(8) 对于样本量的要求，根据经验一般要求样本量应当为纳入模型的自变量的20倍以上为宜，比如模型纳入5个自变量，则样本量应当在100以上为宜。

四、SPSS实例操作

1. 研究设计

某研究人员收集了100名研究者的最大摄氧量（VO2 max），并记录了他们的年龄，体重，心率和性别，拟探讨年龄，体重，心率和性别对VO2 max的影响，并希望能够根据一个人的年龄，体重，心率和性别来对他的VO2 max值进行评估和预测。

2. 录入数据

SPSS数据文件如图所示，分析数据结构：

因变量VO2 max为连续变量，满足上述条件（5）；

自变量中年龄（age），体重（weight），心率（heart_rate）为连续变量，性别（gender）（女=0，男=1）为二分类变量，满足条件（6）；

样本量为100，纳入的自变量为4个，满足条件（8）中大于20倍的要求。在满足上述几个基本条件后，根据研究目的研究人员拟采用多重线性回归的方法来进行统计分析，而对于其他几点适用条件我们将在后面的介绍中进行一一验证。

3. 多重线性回归操作

(1) 选择Analyze → Regression → Linear

在Linear Regression对话框中，将VO2 max选入Dependent，将age，weight，heart_rate，gender选入Independent(s)中。

点击Method下拉列表，会出现Enter，Stepwise，Remove，Backward，Forward共5种方法可供选择，这里选择默认的Enter法，表示将所有的变量都纳入到回归模型中。（自变量筛选共有5种方法，每种方法的区别我们将会在以后的内容中进行详细介绍。）

(2) 点击Statistic选项

在Regression Coefficients复选框中，勾选Estimates和Confidence Intervals Level（%）并设定为95，可输出自变量的回归系数及其95%可信区间。

选择Model fit，输出模型拟合优度的检验结果；选择Descriptive，输出对所有变量的基本统计描述；选择Part and partial correlations，输出自变量之间的相关系数；选择Collinearity diagnostics，输出对自变量进行共线性诊断的统计量。

在Residus复选框中，选择Durbin-Watson，输出值用于判断残差之间是否相互独立。选择Casewise Diagnositics，默认在3倍标准差内来判定离群点。一般来说，95%的值在 ± 2倍标准差内，99%的值在 ± 2.5倍标准差内，可根据具体情况来进行设定。

(3) 点击Save选项

在Predicted Values复选框中选择Unstandardized，保存模型对因变量的原始预测值，在Residuals是复选框中选择Standardized，保存均数为0标准差为1的标准化残差值，在Prediction Intervals复选框中选择Individuals，设定Confidence Intervals为95%，保存个体预测值的95%可信区间。

（数据标准化：用观察值减去该变量的均数，然后除以标准差所得，标准化后数据的均数为0，标准差为1，经标准化的数据都是没有单位的纯数量。）

(4) 点击Plot选项

在Plots对话框中将*ZRESID（标准化残差）放入Y轴，将*ZPRED（标准化预测值）放入X轴，绘制残差散点图；同时选择Histogram和Normal probability plot来绘制标准化残差图，考察残差是否符合正态分布；选择Produce all partial plots绘制每一个自变量与因变量残差的散点图。

(5) 点击Continue回到Linear Regression主对话框，点击OK完成操作。

五、问题思考

本文在一开始介绍了构建多重线性回归模型时需要满足的多个适用条件，那么我们怎么通过输出的结果来对这些条件进行一一验证呢，最终怎样书写构建的多重线性回归方程，并对其结果进行合理的解释呢？

在下一次的内容中，我们将对SPSS输出结果中的众多表格和图形进行详细的解读，敬请期待！

（如果你想使用文中数据进行练习，请随时给小咖（微信：xys2016ykf）发消息，小咖将原始数据发给你。）

统计学教程精彩回顾

1. 【合集】14种统计方法的SPSS操作教程，你值得拥有！

2. 【合集】OR、RR、HR...还没搞清楚？那是因为你还没看过这个！

医咖会微信：medieco-ykh

赶快关注医咖会吧！

有临床研究设计或统计学方面的难题？快加小咖个人微信（xys2016ykf），加入医咖会统计讨论群，和小伙伴们一起交流学习吧。我们诚邀各位小伙伴加入我们，一起创作有价值的内容，将知识共享给更多人！