举例:某自变量X1与Y为正相关关系,但是线性回归显示X1的回归系数为负数,和实际情况相反,这不符合现实情况,属于比较典型的共线性问题。 此时,不管前面调整R方有多么能说明问题,这个模型也是不能用的!错误的! 然后我们发现自变量身长、自变量头围的VIF值均大于200,VIF指标是非常不错的共线性的指针,一般上,当VIF>10,即可怀疑存在共线性问题了。 也就是说,身长和头围这两个存在较为严重的共线性问题。如果强行拟合线性回归的话,模型不可用。但是医师就是要研究身长、头围、体重和周龄的关系,我们还不能直接剔除。 回归还得继续,但显然普通线性回归已经不合适了。 怎么办呢?岭回归是一个可选的解决方案。 SPSS也是可以执行岭回归的,不过不是常见的菜单对话框模块来执行,而是需要编写一段语法。不要担心,这段语法比较简单,是比较容易理解和掌握的。 菜单:【文件】→【新建】→【语法】,打开语法窗口,输入如下代码: INCLUDE'C:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'. ridgereg enter=long touwei weight /dep=y /start=0 /stop=1 /inc=0.05 /k=999. EXECUTE 如下图所示: 观察岭迹图后,我们需要确定一个拐点,在这个拐点处,能使各条曲线同步趋于平稳和重合。拐点的确定,是比较主观的,不同的人可能会有不同的看法,总的原则是,所选拐点,也就是参考K,它对应的调整R方尽可能大一些。 我们可以看到,参数K(拐点的位置)越大,纵轴回归拟合决定系数R方就越小。所以K不能选的过大,否则回归方程决定系数就会大幅降低,回归方程质量就会下降。 我们要在尽可能少的损失下,确定合适的参数K 。 本例,当K=0.05时,三条曲线,尤其是long和touwei两个变量趋于平稳,此时对应的R方约为0.95,模型拟合质量还是蛮高的。 因此,本例K=0.05。 确定了参数K的取值,接下来正式的开始用岭回归的方法拟合出回归方程。这一步仍然需要编写一段语法代码。 打开你电脑安装SPSS的工作路径,找到“Ridge regression.sps”,这个文件就是SPSS提供的能实现岭回归的语法代码宏文件,每个人的电脑只要安装了SPSS,就会在软件的安装路径下自动有这个文件。 现在打开这个文件,找到【out similar to REGRESSION output.】这一段语法,在下方合适的位置,插入一句语法代码: INCLUDE'C:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'. ridgereg enter=long touwei weight /dep=y /start=0 /stop=1 /inc=0.05 /k=0.05. EXECUTE 将参数k有默认的999,修改为0.05(前面岭迹图确定的拐点位置)。然后执行代码。得到岭回归结果。 y=8.7+0.225*long+0.111*touwei+0.005*weight 该回归方程的方差分析显示,p<0.05,说明模型有统计学意义,该方程的调整R方=0.94,模型能解释因变量94%的变化,拟合效果可以接受。 回归方程中,三个自变量long、touwei、weight的偏回归系数均为正数,说明三个自变量与胎儿周龄均为正相关关系,影响的程度具体看系数的绝对值。符合现实情况。 岭回归视频演示近期更新发布至《SPSS从入门到实践提高》课程 参考资料:嗵嗵e研-岭回归分析及其SPSS实现方法 |
|