优秀论文深度剖析：问卷数据建模之前的工作

skysun000001 2022-08-03 发布于北京

展开全文

转自：SPSS学堂

作者：王亚北审核：罗钰娜封面：自己想吧

前言

大家好，我是SPSS学堂的新成员菜菜，很高兴与大家见面。今天我向大家介绍的是来自《心理科学》的一篇文章，来和大家解析一下数据处理时，问卷数据建模之前的大概工作内容。今天我解析的文章是温忠麟的《问卷数据建模之前的工作》，只要是论文需要建模的同学，应该对温忠麟的文章都很熟悉的，这篇文章发表在《心理科学》，2018年文章的复合影响因子是1.445，获得国家自然科学基金项目 (31771245) 的资助。这篇文章主要讨论统计建模之前的工作，重点是量表评价，对需要进行数据建模的同学的帮助应该是挺大的。

这篇文章的正文内容首先介绍的是数据初步处理，特别是缺失值处理；然后重点讨论量表评价方法，包括题目删除的适当性、评价量表的结构效度、多维量表需要合成总分时检验同质性并计算合成信度、检验共同方法偏差和评价（变量）区分效度；接下来关注题目打包、检验自变量的多重共线性等议题；最后也简单讨论了建模理据和无关变量控制。

本片文章比较枯燥，以防大家产生看论文的厌烦心理，就把文章分成了三小部分，给大家一个循序渐进的学习过程。下面我们来一起看看第一部分内容吧。

正文

1 数据初步处理

处理数据的第一步，当然是数据的录入。比较好的做法是每输入一个数据，随即就检查一遍，然后才输入下一个数据。如果是通过网络问卷测量的被试，那就没有这个问题了。数据输入完成后，可以对每个变量做一些简单的计算和描述统计，检查是否有异常的被试、变量和数值。例如某个被试在每个题目的得分都相同或呈现出很规律的模式，可能就是被试不合作不认真填写导致的，应当剔除。

调查问卷的数据中，通常来说，一个题目就是一个变量，如果有被试对某个题目没有作答，相应的变量就存在缺失数据 (missing value)，这就需要我们进一步来处理。一般来说，缺失数据的类型有三种(Rubin, 2004)：第一种，完全随机缺失 (MCAR)，指某个变量X 缺失的概率与其本身和研究中的其他变量都无关。这种缺失数据一般都可以忽略，直接把缺失数据的被试删除即可。第二种，随机缺失(MAR)，指某个变量 X 缺失的概率与研究中的某个或者某些变量有关，但与X 本身无关。这种缺失数据，如果引起缺失的变量与要估计的参数无关，则缺失数据也是可以忽略的；缺失种类不明的时候，只要缺失数据很少（如 5% 之内），删除有缺失的被试通常影响不大。第三种，非随机缺失(NMAR），则是指某个变量X 缺失的概率与X 本身的取值有关（可能与其他变量也有关）。但是，对于 NMAR数据，或者MAR 数据要估计的参数与引起缺失的变量有关，缺失数据是不可忽略的，不能直接简单地把缺失数据删除，一般是需要进行缺失值填补(imputation)。有多种填补的方法(Allison, 2002)，包括均值填补、回归填补、EM算法填补和多重填补等。下面以SPSS20.0中文版为例，对数据填补过程进行简单的介绍。

进行数据填补前，需要先进行缺失数据分析。如图所示，打开数据，在“分析”里找“缺失数据分析”，比如我们以图中数据为例，选择三个定量变量，进行EM和回归分析，确定后，我们会得到如表所示的“单变量统计”表。如果分析结果比较正常，我们就可以进行缺失值填补了。填补缺失值直接按“转换-替换缺失值”进行就可以了，这里就不举例放图了哦。