【原】多重线性回归的SPSS实现以及文献案例分析 | 护理科研

Nursing小班长 2020-08-20

展开全文

作者 | 何耀（北京大学公共卫生学院硕士）

责编 | 阿拉煤油灯

前天的文章，我们学习了相关与回归分析（点击查看）的重要知识点，今天我们结合一个具体的案例用SPSS软件给大家演示一下多重线性回归的操作以及模型的诊断。然后，我们分析两篇有关线性回归的论文。

1. 多重线性回归分析SPSS操作

首先简单介绍一下，视频中会用到的数据。

案例从某医院女性护士体检的数据中，随机抽取20名作为样本，数据包括体重(kg)、胸围(cm)、肩宽(cm)及肺活量(L)，分析影响肺活量的相关因素，数据见下表：

这里我们的研究目的是：分析女性护士肺活量的影响因素，因变量Y即为“肺活量”的大小，属于定量变量；三个自变量分别为：体重（X1）、胸围（X2）、肩宽（X3）。

演示视频如下：

2. 文献分析

第一篇文章于2019年发表在《中国护理管理》杂志，由郑州大学护理学院的老师撰写。该研究采用“多重线性回归”的统计方法，分析了中青年腹膜透析患者“个人掌控感”的影响因素。

研究团队采用便利抽样，于2018年12月至2019年4月抽取郑州市某三级甲等医院肾内科中青年腹膜透析患者作为研究对象，除收集患者的一般资料信息外，还采用个人掌控感量表(Personal Mastery Scale，PMS)、Herth希望量表(Herth Hope Index, HHI)、中文版Piper疲乏修订量表分别测量患者对生活的“掌控感”、“希望水平”以及“疲乏程度”。研究最终纳入238名对象。

按照我们之前强调的，这篇论文的“Y”是什么呢？虽然本研究采用了三个量表，但我们要明确，患者的“个人掌控得分”是我们的目标变量，也就是本研究中的“Y”。其他数据包括人口统计学特征、希望水平、疲乏程度都是“X”。

这里，我们简单解释一下为什么没有“Z”。因为本次研究没有指定特别关注的自变量，而是综合地探讨“个人掌控能力”的影响因素，所以其他自变量都可以看做“X”。如果研究团队现在希望专门探索患者“疲乏程度”与“掌控得分”的关系，此时，“疲乏程度”是我们特别重视的自变量，为了与其他自变量区别，我们就把“疲乏程度”单独作为“X”，其他影响因素称作“Z”，即潜在的、非研究重点的影响因素。（咱们说的相关性研究~）

我们重点看看该论文的线性回归部分。

如上表，在回归模型中，研究者首先纳入的自变量为：文化程度、工作状况、家庭人均月收入、血肌酐、希望得分、疲乏得分。而通过筛选，最终“工作状况”没有被纳入最终的模型，所以，从结果来看，患者“掌控得分”的影响因素包括：收入、希望、血肌酐、疲乏和文化程度。

#如何来解释这些因素的作用呢？也就是说如何理解影响因素的回归系数？

我们首先以“疲乏”（得分）来看，这是一个定量变量，其回归系数为“-0.642”，意味着：保持患者月收入、希望水平、血肌酐和文化程度不变，疲乏量表得分每增加1分，个人掌控得分降低0.642分。从而显示，患者的疲乏程度与其生活掌控力是呈负相关的，疲乏程度越高、患者对生活的掌控力越弱，提示，对于疲乏症状严重的人群需要给予更多的关注。

我们再来看对于定性变量的回归系数解读。以“文化程度”为例，回归系数为0.482，意味着，其他变量不变，文化程度每上升一个等级（例如从“小学”到“初中”，或从“初中”到“高中”），患者的个人掌控得分上升0.482分。因此，文化程度和个人的掌控能力呈正相关，提示，文化水平较低的患者可能更容易出现掌控能力不足的情况。

因此，对回归分析结果的综合解读，研究者便可以得出结论：医护人员可从提高患者希望水平、缓解疲乏症状入手，考虑患者文化程度、经济收入及血肌酐水平的特点，制定个性化干预措施，提升其个人掌控感，促进中青年腹透患者的心理康复。

第二篇论文发表在《中华护理杂志》（2019年），作者单位是：中国医学科学院北京协和医院。研究者以“神经精神狼疮患者的照顾者”为研究对象（注意是“照顾者”，不是患者本人），使用“健康促进生活方式评定量表II”，分析照顾者健康促进生活方式的影响因素。

与我们上一篇文章类似，仍然是“影响因素”分析，本篇的因变量“Y”为“照顾者健康促进行为水平得分”，其他测量因素为潜在的影响因素，即“X”，回归分析结果如下：

如上表，分析结果显示，照顾者促进生活方式影响因素包括：照顾时间、照顾者有无慢性疾病、患者精神症状发作频率、照顾者是否觉得存在照顾负担。（偏）回归系数的解读与第一篇文章类似，比如“照顾时间”变量，其回归系数为正，意味着随着照顾时间的延长，照顾者健康促进行为得分越高。

除了（偏）回归系数，结合本例，我们来看看什么是“标准化回归系数”。

由于多重线性回归模型最终纳入的自变量（影响因素）都不止一个，如何比较这些自变量分别对因变量的影响大小呢？由于每个自变量都具有各自的计量单位以及不同的变异程度，所以不能直接利用偏回归系数的数值大小比较方程中各个自变量对因变量的影响大小。要比较可首先将原始观测数据进行标准化，自变量的标准化过程如下（其中s代表标准差）：