分享

线性回归中的线性考察

 Memo_Cleon 2020-05-01

线性回归要求因变量与各个自变量存在线性关系,在这个前提下,我们才能根据已确定线性模型求得残差【残差是实际观察值与根据线性回归求得的拟合值之间的差值】,从而通过残差考察正态性、方差齐性。

当只有一个自变量时,因变量和自变量的散点图形成的是一个二维结构,有两个自变量时二重线性回归在空间结构上是两个自变量组成的面与因变量的关系,更多的自变量在空间形成的是更高维的结构。我们常常用散点图(简单线性回归)或散点图矩阵(多重线性回归)简单地判断自变量与因变量的线性关系,但这种方法有时候结果并不牢靠,因为这种方法并没有校正其他因素的影响。此法判断简单线性回归的线性问题不大,但在多重线性回归中,自变量间可能相互影响,如不校正其他因素的影响,结果可能会出现偏差。因此在多重线性回归中更宜通过残差图来评估,以及更为专业的偏残差图(Partial Residual Plots)来判断。
示例数据:33名5-8岁正常男童的体重(kg)、心脏纵径(cm)、胸腔横径(cm)以及心脏面积(cm2)。预建立以体重(wt)、心脏纵径(hl)、胸腔横径(ct)推算少年儿童心脏面积(S)的线性回归方程。构建方程前我们先考察一下S与各自变量的线性考察:

【1】散点图矩阵

(1.1)数据录入略。

(1.2)散点图矩阵构建:Graphs>>Chart Bulider,选择散点图/点图(Scatter/Dot),双击散点图矩阵(Scatterplot Matrix),将要分析的所有变量拖入横坐标的Scatter Matrix框,OK

(1.3)结果如下(右图是对左图添加了拟合线):心脏面积与体重、心脏纵径、胸腔横径与心脏面积均大致呈线性关系,体重与心脏面积的直线关系略差一点。自变量间可能存在多重共线,需要后续进一步用统计学方法判断。

因变量与自变量的散点图矩阵是直接利用原始数据进行描绘,并没有考虑到不同自变量间的影响,为校正其他因素的影响,我们可以使用残差图来查看其线性关系。
【2】普通残差图

(2.1)数据录入略

(2.2)线性回归:Analyze>>Regression>>Linear……
  • Dependent(因变量):选入S;

  • Independent(自变量):选入wt、hl和ct;

  • 变量筛选方法(Method):Enter,默认。

  • Save…对话框:选中残差(Residuals)部分的未标准化残差(Unstandardized),Continue。OK

(2.3)利用生成的未标准化残差构建自变量对残差的残差图:Graphs>>Chart Bulider,选择散点图/点图(Scatter/Dot),双击散点图矩阵(Simple Scatter),分别将要分析的变量拖入横坐标的X-Axis框,将上一步生成的非标准化残差(RES_1,Unstandardized Residual)Y-Axis?框,OK每次操作只能分析一个变量。
(2.4)结果如下:在未标准化残差与各个自变量的散点图中,各个散点基本平均分布y=0这条水平线的两边,没有随x的变化出现明显的变化趋势,表明各自变量与因变量呈线性关系的假设是正确的。

你可能觉得结果图很丑,可双击散点图进行编辑美化,还可以在上面添加趋势线及其95%的置信区间,可以相对客观地看一下残差的变化趋势,如果置信区间曲线之间的置信区域是否包含了y=0的水平线,则说明拟合线具有零斜率,即残差不随X的变化而存在变化趋势。下图是对心脏纵径与残差的散点图进行了修饰。【图上传错误,应为hl残差,只看样子吧】

【3】偏残差图(Partial Residual Plots)

除了普通的残差图,我们还会使用偏残差图(Partial Residual Plots)来判断线性。SPSS中并没有直接给出偏残差图的绘制,在其线性回归的[Plots…对话框]中有个[Produce all partial plots]选项,选中后获得的散点图常被误翻译为“偏残差图”,但查询SPSS的帮助文件可知,该项生成的是Partial regression plots,即偏回归图偏回归图和偏残差图是不一样的,打算后面利用一篇短文专门介绍一下这几个特殊形式的残差图。

E



N



D



    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多