分享

最优尺度回归案例操作与结果解释

 湖经松哥 2022-12-08 发布于湖北

作者:夏睿     封面:吉江


图片

案例现收集了一批妇女的曾生子女数、年龄、居住地类别(1:城市、2:农村)、受教育程度(1~5分别代表文盲半文盲、小学、初中、高中、大学及以上),请建立后三个变量对曾生子女数的回归模型。

本例中,因变量为曾生子女数,3个自变量分别为年龄(连续变量)、居住地类别(两分类变量)、受教育程度(有序多分类变量)。通过前一篇文章的学习,我们知道对于受教育程度用1~5等级评分直接纳入分析是不合理的。为此,考虑使用哑变量或最优尺度回归。(本文详细讲解最优尺度回归的操作步骤)

最优尺度回归的操作步骤

(1)“分析”→“回归”→“最佳尺度”

(2)将childnum选入“因变量”,点击“定义度量”,选中“数字”单选按钮。

(3)将age、areaedu选入“自变量”,点击下方的“定义度量”,分别将其度量水平修改为“数字”、“名义”、“有序”。

(4)点击“图”,将childnumageareaedu选入“转换图”,点击“继续”。

(5)点击“确定”。

具体操作如图:

(1)“分析”→“回归”→“最佳尺度”

图片

(2)将childnum选入“因变量”,点击“定义度量”,选中“数字”单选按钮。

图片

图片

(3)将age、areaedu选入“自变量”,点击下方的“定义度量”,分别将其度量水平修改为“数字”、“名义”、“有序”。

图片

图片

图片

图片

图片

图片

图片

(4)点击“图”,将childnumageareaedu选入“转换图”,点击“继续”。

图片

图片

以上即为最优尺度回归的操作步骤:找到“最佳尺度”;选入因变量、自变量;修改各个变量的度量水平;在“图”中将变量选入“转换图”列表框。

最优尺度回归结果解释

(1)

    图片

R方为模型的决定系数,又称拟合优度。结果中R方为0.956,说明模型拟合优度较高。

(2)

图片

用于进行总模型有无意义的检验,P值为0.000,可见变换后评分拟合模型有统计学意义。

(3)

图片

在这个表格中我们主要看Beta这一列,年龄的β值为0.570,表示年龄与曾生子女数为正相关,年龄每增加一个单位,曾生子女数增加0.570;受教育程度的β值为-0.446,表示受教育程度与曾生子女数为负相关,受教育程度每增加一个单位,曾生子女数减少0.446

(4)

图片

在这张表格中,最重要的指标是“重要性”这一列,它体现的是自变量在模型中的影响重要程度的百分比。所有变量的重要性加起来等于100%,数值越大表明该变量对因变量的预测越重要。在本例中,年龄的重要性最高,占53.5%,达到整个模型的一半;受教育程度次之,占40.0%;最不重要的是居住地,只占6.5%

容差(又称容忍度),表示的是该变量对因变量的影响中不能被其他自变量所解释的比例值越大越好反应自变量共线性的情况。

(5)

图片图片

图片图片

以上是4张量化评分的对应图。横坐标表示变量变换之前的值,纵坐标表示变量经最优尺度变换后的值。

我们先回顾一下之前的操作步骤。将childnum选入“因变量”,将ageareaedu选入“自变量”,点击下方“定义度量”,分别将其度量水平修改为“数字”、“数字”、“名义”、“有序”。

在这一步骤中,我们修改变量度量水平的这一过程,就对应上面4张图中各个变量的数值从横坐标值到纵坐标值的转换。

举例来说,图2中年龄这一变量的原始数值为1,2,3,4,547,48……,经过转换其值变为-2.2-2.1,…-1-1.1,…,0……,由图可以看出转换前后的值是严格的线性关系,也就是这个转换和没转换是一样的,也就是操作中我们把年龄指定为“数值”,实际上就是保持不变。图一和图三同理。

我们主要看图4受教育程度的转换。图片

横坐标类别1,2,3,4,5分别对应文盲半文盲、小学、初中、高中、大学及以上,转换后分别对应数值-2.5,0分左右,0分高一点,0.8左右,0.7左右。在上面的输出结果中我们已经知道受教育程度的β值是-0.446,也就是受教育程度每增加一个单位,少生0.446个孩子。

对应到这张图中可以看出,文盲半文盲和小学相比,生育子女数差距是最大的,相当于小学水平的教育程度和文盲半文盲相比,平均会少生2.5*0.446=1.115个孩子。而小学到初中到高中对应的斜率相对缓和很多,表明对生育子女数量影响最大的是是否有一点文化,在有了文化之后,文化水平的增加确实伴随生育子女数的减少,但影响小了很多。到后面高中、大学及以上的量化水平基本相等,表明这两个类别生育子女数基本一样没有区别。

图片

在最优尺度回归的结果输出中,有5项内容需要重点关注:

(1)模型汇总表中R方值——体现模型的拟合优度。

(2)方差表中P值——用于判断模型是否具有统计学意义。

(3)系数表中Beta值——体现各自变量对应系数。

(4)相关性和容差表中重要性值——体现各自变量在模型中的重要程度。

(5)原始变量转换前后评分的对应图——体现分类变量经最优尺度转换后的具体评分。



图片

到此,最优尺度回归的全部内容我们已经学习结束。结合结果输出我们一起回顾一下最优尺度回归的本质:基于模型效果最优化的原则,首先对原始变量进行变换,将各变量转换为适当的量化评分,然后用这些量化评分代替原变量进行回归分析。

而在结果输出的(1)~4)项内容中,体现的是回归的效果和细节;(5)体现分类变量量化评分的细节。

参考文献:

张文彤,董伟.SPSS统计分析高级教程.第二版


大家可根据自己的时间情况进行操作练习,这些步骤多操作几次自然便会内化于心。祝大家学习愉快~


图片

作者简介

姓名:夏睿

院校:郑州大学


图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多