最优尺度回归案例操作与结果解释

湖经松哥 2022-12-08 发布于湖北

展开全文

作者：夏睿封面：吉江

案例：现收集了一批妇女的曾生子女数、年龄、居住地类别（1：城市、2：农村）、受教育程度（1~5分别代表文盲半文盲、小学、初中、高中、大学及以上），请建立后三个变量对曾生子女数的回归模型。

本例中，因变量为曾生子女数，3个自变量分别为年龄（连续变量）、居住地类别（两分类变量）、受教育程度（有序多分类变量）。通过前一篇文章的学习，我们知道对于受教育程度用1~5等级评分直接纳入分析是不合理的。为此，考虑使用哑变量或最优尺度回归。（本文详细讲解最优尺度回归的操作步骤）

最优尺度回归的操作步骤

（1）“分析”→“回归”→“最佳尺度”

（2）将childnum选入“因变量”，点击“定义度量”，选中“数字”单选按钮。

（3）将age、area、edu选入“自变量”，点击下方的“定义度量”，分别将其度量水平修改为“数字”、“名义”、“有序”。

（4）点击“图”，将childnum、age、area、edu选入“转换图”，点击“继续”。

（5）点击“确定”。

具体操作如图：

（1）“分析”→“回归”→“最佳尺度”

（2）将childnum选入“因变量”，点击“定义度量”，选中“数字”单选按钮。

（3）将age、area、edu选入“自变量”，点击下方的“定义度量”，分别将其度量水平修改为“数字”、“名义”、“有序”。

（4）点击“图”，将childnum、age、area、edu选入“转换图”，点击“继续”。

以上即为最优尺度回归的操作步骤：找到“最佳尺度”；选入因变量、自变量；修改各个变量的度量水平；在“图”中将变量选入“转换图”列表框。

最优尺度回归结果解释

（1）

R方为模型的决定系数，又称拟合优度。结果中R方为0.956，说明模型拟合优度较高。

（2）

用于进行总模型有无意义的检验，P值为0.000，可见变换后评分拟合模型有统计学意义。

（3）

在这个表格中我们主要看Beta这一列，年龄的β值为0.570，表示年龄与曾生子女数为正相关，年龄每增加一个单位，曾生子女数增加0.570；受教育程度的β值为-0.446，表示受教育程度与曾生子女数为负相关，受教育程度每增加一个单位，曾生子女数减少0.446。

（4）

在这张表格中，最重要的指标是“重要性”这一列，它体现的是自变量在模型中的影响重要程度的百分比。所有变量的重要性加起来等于100%，数值越大表明该变量对因变量的预测越重要。在本例中，年龄的重要性最高，占53.5%，达到整个模型的一半；受教育程度次之，占40.0%；最不重要的是居住地，只占6.5%。

容差（又称容忍度），表示的是该变量对因变量的影响中不能被其他自变量所解释的比例，值越大越好，反应自变量共线性的情况。

（5）

以上是4张量化评分的对应图。横坐标表示变量变换之前的值，纵坐标表示变量经最优尺度变换后的值。

我们先回顾一下之前的操作步骤。将childnum选入“因变量”，将age、area、edu选入“自变量”，点击下方“定义度量”，分别将其度量水平修改为“数字”、“数字”、“名义”、“有序”。

在这一步骤中，我们修改变量度量水平的这一过程，就对应上面4张图中各个变量的数值从横坐标值到纵坐标值的转换。

举例来说，图2中年龄这一变量的原始数值为1,2,3,4,5…47,48……，经过转换其值变为-2.2，-2.1，…-1，-1.1，…，0……，由图可以看出转换前后的值是严格的线性关系，也就是这个转换和没转换是一样的，也就是操作中我们把年龄指定为“数值”，实际上就是保持不变。图一和图三同理。

我们主要看图4受教育程度的转换。

横坐标类别1,2,3,4,5分别对应文盲半文盲、小学、初中、高中、大学及以上，转换后分别对应数值-2.5,0分左右，0分高一点，0.8左右，0.7左右。在上面的输出结果中我们已经知道受教育程度的β值是-0.446，也就是受教育程度每增加一个单位，少生0.446个孩子。

对应到这张图中可以看出，文盲半文盲和小学相比，生育子女数差距是最大的，相当于小学水平的教育程度和文盲半文盲相比，平均会少生2.5*0.446=1.115个孩子。而小学到初中到高中对应的斜率相对缓和很多，表明对生育子女数量影响最大的是是否有一点文化，在有了文化之后，文化水平的增加确实伴随生育子女数的减少，但影响小了很多。到后面高中、大学及以上的量化水平基本相等，表明这两个类别生育子女数基本一样没有区别。

在最优尺度回归的结果输出中，有5项内容需要重点关注：

（1）模型汇总表中R方值——体现模型的拟合优度。

（2）方差表中P值——用于判断模型是否具有统计学意义。

（3）系数表中Beta值——体现各自变量对应系数。

（4）相关性和容差表中重要性值——体现各自变量在模型中的重要程度。

（5）原始变量转换前后评分的对应图——体现分类变量经最优尺度转换后的具体评分。

到此，最优尺度回归的全部内容我们已经学习结束。结合结果输出我们一起回顾一下最优尺度回归的本质:基于模型效果最优化的原则，首先对原始变量进行变换，将各变量转换为适当的量化评分，然后用这些量化评分代替原变量进行回归分析。

而在结果输出的（1）~（4）项内容中，体现的是回归的效果和细节；（5）体现分类变量量化评分的细节。

参考文献：

张文彤，董伟.SPSS统计分析高级教程.第二版

大家可根据自己的时间情况进行操作练习，这些步骤多操作几次自然便会内化于心。祝大家学习愉快~

作者简介