(1)“分析”→“回归”→“最佳尺度”
(2)将childnum选入“因变量”,点击“定义度量”,选中“数字”单选按钮。
(3)将age、area、edu选入“自变量”,点击下方的“定义度量”,分别将其度量水平修改为“数字”、“名义”、“有序”。
(4)点击“图”,将childnum、age、area、edu选入“转换图”,点击“继续”。
(5)点击“确定”。
具体操作如图:
(1)“分析”→“回归”→“最佳尺度”
(2)将childnum选入“因变量”,点击“定义度量”,选中“数字”单选按钮。
(3)将age、area、edu选入“自变量”,点击下方的“定义度量”,分别将其度量水平修改为“数字”、“名义”、“有序”。
(4)点击“图”,将childnum、age、area、edu选入“转换图”,点击“继续”。
以上即为最优尺度回归的操作步骤:找到“最佳尺度”;选入因变量、自变量;修改各个变量的度量水平;在“图”中将变量选入“转换图”列表框。
(1)
R方为模型的决定系数,又称拟合优度。结果中R方为0.956,说明模型拟合优度较高。
(2)
用于进行总模型有无意义的检验,P值为0.000,可见变换后评分拟合模型有统计学意义。
(3)
在这个表格中我们主要看Beta这一列,年龄的β值为0.570,表示年龄与曾生子女数为正相关,年龄每增加一个单位,曾生子女数增加0.570;受教育程度的β值为-0.446,表示受教育程度与曾生子女数为负相关,受教育程度每增加一个单位,曾生子女数减少0.446。
(4)
在这张表格中,最重要的指标是“重要性”这一列,它体现的是自变量在模型中的影响重要程度的百分比。所有变量的重要性加起来等于100%,数值越大表明该变量对因变量的预测越重要。在本例中,年龄的重要性最高,占53.5%,达到整个模型的一半;受教育程度次之,占40.0%;最不重要的是居住地,只占6.5%。
容差(又称容忍度),表示的是该变量对因变量的影响中不能被其他自变量所解释的比例,值越大越好,反应自变量共线性的情况。
(5)
以上是4张量化评分的对应图。横坐标表示变量变换之前的值,纵坐标表示变量经最优尺度变换后的值。
我们先回顾一下之前的操作步骤。将childnum选入“因变量”,将age、area、edu选入“自变量”,点击下方“定义度量”,分别将其度量水平修改为“数字”、“数字”、“名义”、“有序”。
在这一步骤中,我们修改变量度量水平的这一过程,就对应上面4张图中各个变量的数值从横坐标值到纵坐标值的转换。
举例来说,图2中年龄这一变量的原始数值为1,2,3,4,5…47,48……,经过转换其值变为-2.2,-2.1,…-1,-1.1,…,0……,由图可以看出转换前后的值是严格的线性关系,也就是这个转换和没转换是一样的,也就是操作中我们把年龄指定为“数值”,实际上就是保持不变。图一和图三同理。
我们主要看图4受教育程度的转换。
横坐标类别1,2,3,4,5分别对应文盲半文盲、小学、初中、高中、大学及以上,转换后分别对应数值-2.5,0分左右,0分高一点,0.8左右,0.7左右。在上面的输出结果中我们已经知道受教育程度的β值是-0.446,也就是受教育程度每增加一个单位,少生0.446个孩子。
对应到这张图中可以看出,文盲半文盲和小学相比,生育子女数差距是最大的,相当于小学水平的教育程度和文盲半文盲相比,平均会少生2.5*0.446=1.115个孩子。而小学到初中到高中对应的斜率相对缓和很多,表明对生育子女数量影响最大的是是否有一点文化,在有了文化之后,文化水平的增加确实伴随生育子女数的减少,但影响小了很多。到后面高中、大学及以上的量化水平基本相等,表明这两个类别生育子女数基本一样没有区别。
在最优尺度回归的结果输出中,有5项内容需要重点关注:
(1)模型汇总表中R方值——体现模型的拟合优度。
(2)方差表中P值——用于判断模型是否具有统计学意义。
(3)系数表中Beta值——体现各自变量对应系数。
(4)相关性和容差表中重要性值——体现各自变量在模型中的重要程度。
(5)原始变量转换前后评分的对应图——体现分类变量经最优尺度转换后的具体评分。
到此,最优尺度回归的全部内容我们已经学习结束。结合结果输出我们一起回顾一下最优尺度回归的本质:基于模型效果最优化的原则,首先对原始变量进行变换,将各变量转换为适当的量化评分,然后用这些量化评分代替原变量进行回归分析。
而在结果输出的(1)~(4)项内容中,体现的是回归的效果和细节;(5)体现分类变量量化评分的细节。
参考文献:
张文彤,董伟.SPSS统计分析高级教程.第二版
大家可根据自己的时间情况进行操作练习,这些步骤多操作几次自然便会内化于心。祝大家学习愉快~