分享

如何用SPSS岭回归解决共线性问题?

 钟山紫竹林 2019-08-20
我们在线性回归中,难免会遇到数据存在共线性问题,所谓共线性,是指两个或多个自变量之间存在明显的相关关系,在线性拟合的过程中,导致回归方程出现拟合效果差、回归系数难以解释等问题。

举例:某自变量X1与Y为正相关关系,但是线性回归显示X1的回归系数为负数,和实际情况相反,这不符合现实情况,属于比较典型的共线性问题。

一起来看今天的实例:
某医师希望通过B超下胎儿的身长、头围、体重来预测胎儿周龄,这些观测值均是连续性数值变量,所以很容易想到建立一个多重线性回归方程来解决问题。
周龄为因变量,体重、身长、头围为自变量的回归方程,调整后R方=0.971,模型可以解释掉因变量97.1%的变异,说明模型拟合的不错。
再一细看。自变量头围的回归系数=-2.159,头围和胎儿周龄负相关?随着胎儿的头围增长,胎儿的周龄变小?很显然这是不符合生活逻辑的。

此时,不管前面调整R方有多么能说明问题,这个模型也是不能用的!错误的!

然后我们发现自变量身长、自变量头围的VIF值均大于200,VIF指标是非常不错的共线性的指针,一般上,当VIF>10,即可怀疑存在共线性问题了。

也就是说,身长和头围这两个存在较为严重的共线性问题。如果强行拟合线性回归的话,模型不可用。但是医师就是要研究身长、头围、体重和周龄的关系,我们还不能直接剔除。

回归还得继续,但显然普通线性回归已经不合适了。

怎么办呢?岭回归是一个可选的解决方案。

SPSS也是可以执行岭回归的,不过不是常见的菜单对话框模块来执行,而是需要编写一段语法。不要担心,这段语法比较简单,是比较容易理解和掌握的。

菜单:【文件】→【新建】→【语法】,打开语法窗口,输入如下代码:

INCLUDE'C:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'.
ridgereg enter=long touwei weight
/dep=y
/start=0
/stop=1
/inc=0.05
/k=999.
EXECUTE

如下图所示:
全选语法代码,菜单:【运行】→【全部】,得到如下可视化结果(修饰后):
上图名为 岭迹图 ,每个自变量X会在岭迹图上生成一条曲线,特点是随着参数K的增大,各条曲线逐渐重合重叠。每条曲线有一个拐点,拐点左侧的特点是快速下滑,拐点右侧的特点是趋于平稳并与其他曲线重合。

观察岭迹图后,我们需要确定一个拐点,在这个拐点处,能使各条曲线同步趋于平稳和重合。拐点的确定,是比较主观的,不同的人可能会有不同的看法,总的原则是,所选拐点,也就是参考K,它对应的调整R方尽可能大一些。
此时,要结合上图。

我们可以看到,参数K(拐点的位置)越大,纵轴回归拟合决定系数R方就越小。所以K不能选的过大,否则回归方程决定系数就会大幅降低,回归方程质量就会下降。

我们要在尽可能少的损失下,确定合适的参数K 。

本例,当K=0.05时,三条曲线,尤其是long和touwei两个变量趋于平稳,此时对应的R方约为0.95,模型拟合质量还是蛮高的。

因此,本例K=0.05。

确定了参数K的取值,接下来正式的开始用岭回归的方法拟合出回归方程。这一步仍然需要编写一段语法代码。

打开你电脑安装SPSS的工作路径,找到“Ridge regression.sps”,这个文件就是SPSS提供的能实现岭回归的语法代码宏文件,每个人的电脑只要安装了SPSS,就会在软件的安装路径下自动有这个文件。

现在打开这个文件,找到【out similar to REGRESSION output.】这一段语法,在下方合适的位置,插入一句语法代码:
.computeppp=2*(1-tcdf(abs(ratio),n-nv-1)).
具体如下:
然后,我们重新调用这个宏文件:

INCLUDE'C:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'.
ridgereg enter=long touwei weight
/dep=y
/start=0
/stop=1
/inc=0.05
/k=0.05.
EXECUTE

将参数k有默认的999,修改为0.05(前面岭迹图确定的拐点位置)。然后执行代码。得到岭回归结果。
回归方程表达式:

y=8.7+0.225*long+0.111*touwei+0.005*weight

该回归方程的方差分析显示,p<0.05,说明模型有统计学意义,该方程的调整R方=0.94,模型能解释因变量94%的变化,拟合效果可以接受。

回归方程中,三个自变量long、touwei、weight的偏回归系数均为正数,说明三个自变量与胎儿周龄均为正相关关系,影响的程度具体看系数的绝对值。符合现实情况。

岭回归视频演示近期更新发布至《SPSS从入门到实践提高》课程
参考资料:嗵嗵e研-岭回归分析及其SPSS实现方法

任何人经过一段时间的刻意学习和训练之后,都能使用SPSS完成统计分析任务和基本的数据分析工作,SPSS是最容易入门并熟练掌握的统计分析软件工具,本号推出的SPSS在线视频教程《SPSS从入门到实践提高》长期维护更新,想学习SPSS的读者欢迎加入。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多