【原】SPSSAU教程：线性回归分析思路总结！史上最全！

Mark_killua 2020-02-24

展开全文

线性回归分析是一种研究影响关系的方法，在实际研究里非常常见。不管你有没有系统学习过，对于线性回归，相信多少都有那么一点了解。

即使如此，在实际分析时，还是会碰到很多小细节，让我们苦思冥想，困扰很久，以致影响效率。

因此本文就一起梳理下回归分析的分析流程，闲话少说，我们开始吧。

线性回归

回归分析实质上就是研究一个或多个自变量X对一个因变量Y（定量数据)的影响关系情况。

当自变量为1个时，是一元线性回归，又称作简单线性回归；自变量为2个及以上时，称为多元线性回归。在SPSSAU里均是使用【通用方法】里的【线性回归】实现分析的。

SPSSAU-线性回归

Step1：数据类型

线性回归要求因变量Y（被解释变量）一定是定量数据。如果因变量Y为定类数据，可以用【进阶方法】中的【logit回归】。

SPSSAU-logit回归

Step2：变量筛选

① 对于引入模型的自变量，通常没有个数要求。但从经验上看，不要一次性放入太多自变量。如果同时自变量太多，容易引起共线性问题。建议根据专业知识进行选择，同时样本量不能过少，通常要满足样本个数是自变量的20倍以上。

② 如果自变量为定类数据，需要对变量进行虚拟（哑）变量处理，可以在SPSSAU的【数据处理】→【生成变量】进行设置。

具体设置步骤查看SPSSAU有关哑变量的文章：什么是虚拟变量？怎么设置才正确？

SPSSAU-设置虚拟变量

③ 控制变量，可以是定量数据，也可以是定类数据。一般来说更多是定类数据，如：性别，年龄，工作年限等人口统计学变量。通常情况下，不需要处理，可以直接和自变量一起放入X分析框分析即可。

Step3：正态性检验

理论上，回归分析的因变量要求需服从正态分布，SPSSAU提供多种检验正态性的方法。

如果出现数据不正态，可以进行对数处理。若数据为问卷数据，建议可跳过正态性检验这一步。原因在于问卷数据属于等级数据，很难保证正态性，且数据本身变化幅度就不大，即使对数处理效果也不明显。

Step4：散点图和相关分析

一般来说，回归分析之前需要做相关分析，原因在于相关分析可以先了解是否有关系，回归分析是研究有没有影响关系，有相关关系但并不一定有回归影响关系。当然回归分析之前也可以使用散点图查看数据关系。

Step5：SPSSAU操作

案例：在线英语学习购买因素研究

①操作步骤

将性别、年龄、月收入水平、产品、促销、渠道、价格、个性化服务、隐私保护共九个变量作为自变量，而将购买意愿作为因变量进行线性回归分析。

勾选“保存残差和预测值”。

②指标说明

● 非标准化系数（B）：非标准化回归系数。回归模型方程中使用的是非标准化系数。

● 标准化系数（Beta）：标准化回归系数。一般可用于比较自变量对Y的影响程度。Beta值越大说明该变量对Y的影响越大

● t值：t检验的过程值，回归分析中涉及两种检验（t检验和F检验），t检验分别检验每一个X对Y的影响关系，通过t检验说明这个X对Y有显著的影响关系；F检验用于检验模型整体的影响关系，通过F检验，则说明模型中至少有一个X对Y有显著的影响关系。此处的t值，为t检验的过程值，用于计算P值。一般无需关注。

● p值：t检验所得p值。P值小于0.05即说明，其所对应的X对因变量存在显著性影响关系。

● VIF值：共线性指标。大于5说明存在共线性问题。

● R²：决定系数，模型拟合指标。反应Y的波动有多少比例能被X的波动描述。

● 调整R²：调整后的决定系数，也是模型拟合指标。当x个数较多是调整R²比R²更为准确。

● F检验：通过F检验，说明模型中至少有一个X对Y有显著的影响关系。分析时主要关注后面的P值即可。

● D-W值：D-W检验值，Durbin-Watson检验，是自相关性的一项检验方法。如果D-W值在2附近（1.7~2.3之间），则说明没有自相关性，模型构建良好。

③结果分析

分析时可按照“分析建议”给出的步骤进行。