分享

用SPSS创建虚拟变量/哑变量

 钟山紫竹林 2019-10-07
SPSS【转换】菜单下的【创建虚变量】功能,可以将分类变量转换为虚拟变量,在线性回归中如果遇到无序分类变量的自变量,此时这个菜单就可以派上用场了,可以帮助用户快速完成哑变量处理。
举个例子。
血型分为A、B、AB、O型,4种血型是平行的。如果我们在SPSS中录入一个血型的变量,为了参与后续的统计分析,通常是用数字1、2、3、4来编码,此时对于SPSS软件来说,1、2、3、4就是一个等间距的数字,这显然不符合血型的实际状况,因此需要进行哑变量的转换。
从概念上,一个有n水平的分类变量,需要选定一个属性作为参照,最终生成n-1个哑变量。而在SPSS的【创建虚变量】菜单中,它会自动生成n个虚变量,所以需要我们手动删去选定参照的一个
【创建虚变量】主对话框:
来看SPSS默认的虚拟变量结果:
血型作为一个无序分类变量,有4个水平,n=4,SPSS会默认生成4个虚拟变量。这时候要注意,这是没有设定参照的虚拟变量,而在哑变量的应用中,一个n水平的分类变量,需选定一个分类水平作为参照,生成n-1个哑变量。
所以,接下来我们需要选定一个水平作为参照,选谁呢?一般情况可以选择数字编码的第一个或最后一个,也可以根据专业、特殊要求来选择。O型血相对较特殊,咱们就选O型作为参照,也就是最后一个虚拟变量【血型_4】,将其直接删去 。
删去【血型_4】后,保留下来的【血型_1】【血型_2】【血型_3】即为我们要得到的哑变量。此时,完成将一个分类变量转换为哑变量的操作。
大家来看,哑变量【血型_1】中出现数字1的即对应A型血,【血型_2】中出现数字1的即为B型,【血型_3】中出现数字1的即为AB型,而三个哑变量同时编码为数字0时(参照)对应的O型。
哑变量的含义表示相较于参照(O型血)的差异,这一点也需要知道。
同类文章阅读:
线性回归时如何对分类变量进行哑变量处理?

通知:本号出品的《SPSS从入门到实践提高》视频课程2周年活动正在进行,活动期间购买课程赠送图书《谁说菜鸟不会数据分析SPSS篇》一本,有兴趣的读者,欢迎了解、选购。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多