分享

优秀论文深度剖析:问卷数据建模之前的工作

 skysun000001 2022-08-03 发布于北京

转自:SPSS学堂

作者:王亚北  审核:罗钰娜  封面:自己想吧

前言

大家好,我是SPSS学堂的新成员菜菜,很高兴与大家见面。今天我向大家介绍的是来自《心理科学》的一篇文章,来和大家解析一下数据处理时,问卷数据建模之前的大概工作内容。今天我解析的文章是温忠麟的《问卷数据建模之前的工作》,只要是论文需要建模的同学,应该对温忠麟的文章都很熟悉的,这篇文章发表在《心理科学》,2018年文章的复合影响因子是1.445,获得国家自然科学基金项目 (31771245) 的资助。这篇文章主要讨论统计建模之前的工作,重点是量表评价,对需要进行数据建模的同学的帮助应该是挺大的。

这篇文章的正文内容首先介绍的是数据初步处理,特别是缺失值处理;然后重点讨论量表评价方法,包括题目删除的适当性、评价量表的结构效度、多维量表需要合成总分时检验同质性并计算合成信度、检验共同方法偏差和评价(变量)区分效度;接下来关注题目打包、检验自变量的多重共线性等议题;最后也简单讨论了建模理据和无关变量控制。

本片文章比较枯燥,以防大家产生看论文的厌烦心理,就把文章分成了三小部分,给大家一个循序渐进的学习过程。下面我们来一起看看第一部分内容吧。

正文

1 数据初步处理

处理数据的第一步,当然是数据的录入。比较好的做法是每输入一个数据,随即就检查一遍,然后才输入下一个数据。如果是通过网络问卷测量的被试,那就没有这个问题了。数据输入完成后,可以对每个变量做一些简单的计算和描述统计,检查是否有异常的被试、变量和数值。例如某个被试在每个题目的得分都相同或呈现出很规律的模式,可能就是被试不合作不认真填写导致的,应当剔除。

调查问卷的数据中,通常来说,一个题目就是一个变量,如果有被试对某个题目没有作答,相应的变量就存在缺失数据 (missing value),这就需要我们进一步来处理。一般来说,缺失数据的类型有三种(Rubin, 2004):第一种,完全随机缺失 (MCAR),指某个变量X 缺失的概率与其本身和研究中的其他变量都无关。这种缺失数据一般都可以忽略,直接把缺失数据的被试删除即可。第二种,随机缺失(MAR),指某个变量 X 缺失的概率与研究中的某个或者某些变量有关,但与X 本身无关。这种缺失数据,如果引起缺失的变量与要估计的参数无关,则缺失数据也是可以忽略的;缺失种类不明的时候,只要缺失数据很少(如 5% 之内),删除有缺失的被试通常影响不大。第三种,非随机缺失(NMAR),则是指某个变量X 缺失的概率与X 本身的取值有关(可能与其他变量也有关)。但是,对于 NMAR数据,或者MAR 数据要估计的参数与引起缺失的变量有关,缺失数据是不可忽略的,不能直接简单地把缺失数据删除,一般是需要进行缺失值填补(imputation)。有多种填补的方法(Allison, 2002),包括均值填补、回归填补、EM算法填补和多重填补等。下面以SPSS20.0中文版为例,对数据填补过程进行简单的介绍。

进行数据填补前,需要先进行缺失数据分析。如图所示,打开数据,在“分析”里找“缺失数据分析”,比如我们以图中数据为例,选择三个定量变量,进行EM和回归分析,确定后,我们会得到如表所示的“单变量统计”表。如果分析结果比较正常,我们就可以进行缺失值填补了。填补缺失值直接按“转换-替换缺失值”进行就可以了,这里就不举例放图了哦。

图片

图片

好了,关于数据的录入问题我们就简单介绍到这里了,希望对大家有所帮助,同时,还有后继内容望大家继续关注

下期内容

「优秀论文深度剖析——问卷数据建模之前的工作之中篇」

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多