单变量线性回归模型与结果解读

昵称A4812 2019-02-25

展开全文

模型一般形式

统计模型的一般形式是Y=m(X)+e。其中Y为输出变量、响应变量、因变量、被解释变量；m为均值；e为不可控因子，可以理解为噪声。故模型等式右边是用X组成的函数去描述Y的均值，即模型是在平均的意义下去描述自变量与因变量间的关系，所以在解读模型的时候，我不会将模型说死。

模型中不同形式的m（X）会幻化为不同的模型体系，一般可以将模型分为两大类：

1、m（X）可以幻化为数学公式，即公式模型，一般比较成熟的都是公式模型，例如回归模型的理论与底蕴就比较完善，模型的假定都是可以进行检验的；

2、m（X）过于复杂，用公式无法描述，需要用算法去描述，即算法模型，例如决策树模型。

其实，建模的作用就是将看上去不太可能的事情联系到一起，同时又能将事情的来龙去脉解释清楚。模型构建之前都有假定，模型构建的好不好、是否合适都取决于模型是否符合假定，当然更核心的还是要关注模型在业务场景的应用，这才是建模的最主要的目的。

回归的基本思路

在模型领域，解释性较好的模型毋庸置疑就是回归。回归模型主要能做两件事情，一是用模型去体现事物间的关系，即解释模型变量间的关系；二是用模型进行预测。

如下图所示，回归建模的工作流程即将客观现实转化为数据后进行建模，终极目标是用数学模型将事物的来龙去脉解释清楚，作为数据分析师，讲故事的能力真的非常重要。

回归模型里的坑

构建回归模型时经常需要对变量进行变换，在调整量纲的过程中不怕数据长度发生变化，怕的是数据的相对长度发生变化，因为眼睛能看到的空间为欧式空间，欧式空间的弱点是数据很容易受到量纲的影响，所以在构建模型进行数据变换的时候并不能随心所欲的变换。

数据变换过程中我经常会使用BOX-COX变换，这种变换的方法为：

1、λ不等于0的时候，

2、λ等于0的时候，

这种BOX-COX的数据变换方式有几个特点：

1、这种变换可以改变分布形状，使数据成为对称甚至正态分布，至少，这种变换能将数据分布往正态分布方向拉一拉；

2、这种变换能保持原数据的大小次序；

3、这种变换对变换结果有比较好的解释。例如：

λ=2的时候变换变为了,可以叫做平方变换；

λ=1的时候变换变为了,可以叫做恒等变换；

λ=0.5的时候变换变为,可以叫做平方根变换；

λ=0的时候可以叫做对数变换；

λ=-0.5的时候，y可以叫做平方根倒数变换；

4、变换需要y的最大值和y的最小值的比值要大于2，即原始数据Y的最大值和最小值的变化范围不能太小使用BOX-COX变换才是有效的，如果变化范围过小则数据不敏感。但是实际工作中我还没有遇到过比值小于2的情况。

怎样衡量模型好坏

建模过程中首先应该考虑检验能否通过，如果检验通过，则需要考虑模型好不好、行不行，即必须要进行模型诊断，任何一个模型都有一个正常、期待的样子，即假定，模型建好后都应该看下模型拟合的结果是否符合假定，建模不是很难的过程，困难的点在于数据是否符合假定的衡量。

简单线性回归模型的假定

简单线性回归模型有下面几个假定：

1、线性假定

所谓线性假定指构建模型时需将模型构建成线性的模式，例如Y=b0+b1x2+e，虽然是x2的形式，但可将x2的整体看做X。即在进行参数估计的时候，自变量X可以采用任何形式，但是模型整体需要保证是类线性的模式；

2、正交假定

X和e之间不相关；

3、独立同分布

残差间相互独立，方差需齐性，即相等；

4、Y服从正态分布

一般直接检验因变量Y是不是正态分布比较麻烦，实际检验的是残差。

单变量线性回归模型SAS示例

单变量线性回归模型一般形式为：Y=b0+b1X1+e。其中Y为因变量，X为自变量或预测变量，e为扰动项，b为模型的系数。如下示例建模背景为针对消费与收入构建单变量线性回归模型，下面为SAS实现代码以及我对模型结果的解读思路：

PROC REG DATA=XUHUI PLOTS(ONLY)=ALL;

Linear_Regression_Model:

MODEL cost=income/dw spec;

OUTPUT OUT=result

PREDICTED=predicted_cost

RESIDUAL=residual_cost

STUDENT=student_cost

RSTUDENT=rstudent_cost;

RUN;

QUIT;

结果解读：

1、看F检验结果与调整R方：

F检验，如果P值小则为合理；

调整R方，这里调整R方过小，说明这个一元回归模型可能仅仅一个自变量是不够的；

2、看DW与spc：

DW为自相关衡量指标，靠近2没有自相关，靠近4和0有自相关，这里DW为1.42有点靠近未判定区。一般，DW只能检验一阶自相关，更复杂的情况无法检验；

spc为异方差检验指标，即怀特检验，即下方第一和第二距制定的检验，P值小表明没有异方差。

其实，DW检验也好、怀特检验也好，都属于弱检验，他们的检验结果的可靠性和实用性不大，只能作为参考，一般实际中我还是会去看残差图再次进行检验。

3、看分布，类似钟型，如果不是钟型可以对Y做Box-Cox变换。

4、利用预测值残差图查看模型是否符合假定

如果模型符合假定，那么模型的残差均值为0、方差为常数，图形中方差用范围去体现，比较期望的状态应该是以均值为中心、区间保持稳定。这里残差图的形态说明出现了异方差，即消费越大花钱的方差越大，需要进行变换，这个地方我不太喜欢用最小二乘的方法进行处理，一般我会想去用合适的方法对变量进行变换。

5、拟合诊断图：

第一列图形用于判断数据是否是正态，右上角的四张图用于判断强影响点。