so easy！问卷数据建模前只需走好这6步！

徒步者的收藏 2019-04-03

展开全文

摘要

（）

问卷（包括量表）是一种专门设计的书面调查表，通过问卷收集数据是心理学和其他社会科学实证研究的常用方法。问卷法的优点是简便易行，可以在短时间内获得大范围资料；问卷不记名，减少了回答者的心理压力，有利于收集到真实的应答结果；所得资料便于整理和统计分析（温忠麟，2017a）。

数据初步处理

任何人都不可高估自己的注意力，为了避免错误地键入数据，检查是必要的。好的做法是每输入一个被试的数据，随即检查一遍，然后才输入下一个被试数据。数据完成输入后，可以对每个变量做一些简单的计算和描述统计，检查是否有异常的被试、变量和数值。对于检查无误的原始数据，如果所用量表存在反向计分的题目，需对反向题进行重新编码。问卷数据中通常一个题目就是一个变量，如果有被试对某个题目没有作答，相应的变量就存在缺失值 (missing value)，需要处理。缺失类型有三种(Rubin,2004)：完全随机缺失 (MCAR)、随机缺失(MAR)、非随机缺失 (NMAR)。MCAR指某个变量X缺失的概率与其本身和研究中的其他变量都无关。

MAR 指某个变量X 缺失的概率与研究中的某个或者某些变量有关，但与X本身无关。NMAR 指某个变量X 缺失的概率与X 本身的取值有关（可能与其他变量也有关）。

对于 MCAR 数据，缺失数据是可以忽略的，简单地将有缺失的被试删除（列删法，listwise）就可以了，但样本容量只能算删除之后的。对于 MAR 数据，如果引起缺失的变量与要估计的参数无关，则缺失数据也是可以忽略的。缺失种类不明的时候，只要缺失数据很少（如 5% 之内），删除有缺失的被试通常影响不大。

对于 NMAR数据，或者 MAR 数据要估计的参数与引起缺失的变量有关，缺失是不可忽略的，不能简单地将缺失数据删除，通常的做法是缺失值填补(imputation)。

使用常用的 SEM软件，可以不用填补缺失值，而是在程序语句中指明缺失值（如 Mplus，在 VARIABLE 下加上 MISSING= ALL (99) 表示所有变量中的“99”都是缺失值），软件默认用全息极大似然估计法 (full informationmaximum likelihood) 进行参数估计，该方法在缺失值理论下利用全部可用的数据信息进行计算 (Collins, Schafer, & Kam, 2001)。

不少统计方法对变量有正态性假设，因而需要分布检验（检验方法可参见温忠麟，2016）。

量表评价

对于一项基于问卷的研究，即使研究者不拟使用结构方程分析潜变量，而是使用量表合成分数（各题得分均值或者总分）进行统计分析，也需要建立测量模型（SEM包括测量模型和结构模型），使用验证性因子分析(CFA) 做量表评价，为后续的统计建模分析奠定基础。

2.1 评价量表的结构效度

CFA 的一个重要作用是评价量表的结构效度。使用现有的或者改编的量表进行测量时，题目与潜变量（因子）的从属关系是已知的，多维量表的维度（一个维度对应于一个分量表）也是已知的，但由于被试和施测环境的差异，得到的数据未必符合已有的理论模型，故需通过 CFA 检验量表的结构效度（骆方, 张厚粲, 2006）。做法是用一个构想的测量模型去拟合数据，看拟合指数 (fit index) 高低。

一般认为，如果 CFI (Comparative Fit Index) 和 TLI (Tucker-Lewis Index；也称为 NNFI，Non-normed Fit Index) 大于0.9（越大越好），RMSEA (Root Mean Square Error of Approximation) 和 SRMR (Standardized Root Mean square Residual) 小于0.08（越小越好），则模型整体上拟合良好（温忠麟 , 侯杰泰, Marsh, 2004），说明量表结构符合预期。如果模型拟合欠佳，可以考虑探索性结构方程模型 (ESEM)，允许跨因子负荷，可以得到比较准确的潜变量关系（麦玉娇,温忠麟 , 2013）。

CFA 首先要做的是验证题目与因子的从属关系。如果部分题目的因子负荷过低（如标准化负荷小于0.4），则可考虑删除这些题目（如果它们也不从属于其他因子），将剩下题目做CFA并报告拟合指数。即使拟合指数表现良好，仍需进一步考虑删题前后量表的异同。从心理测量的角度看，每个因子的全部题目是测量该因子的一组代表性样本。删除题目是否适当，主要通过专业判断删除之后剩下的题目是否还有代表性（所以删除的题目不能太多）。如果每个因子剩下的题目还有代表性，仍可以有效测量所测因子的行为或特质，则删除题目是可以接受的。如初中数学测验包含代数、几何、概率三个方面，若删除的都是几何题致使代表性不足，则该测验已不能测量初中数学能力了。如删除一两道几何题之后剩下的几何题还可以有效测量几何能力，则删除题目是适当的。但删除题目以后得到的结果与前人的研究结果可能没有可比性。

如果删除题目之前已经报告CFA 拟合指数并且拟合良好，删除题目之后可以不再报告，因为删除负荷低的题目，通常总是可以提高模型拟合程度，但最好报告删除题目之后的 CFA 拟合指数。例如，有研究者根据CFA 结果，删除因子负荷低于0.4 的题目进行后续分析（任皓, 温忠麟, 陈启山, 2013）。

2.2 评价量表的信度

信度是衡量测验质量的重要指标。对于每个量表，都应当报告 Cronbach的α 系数。如果量表合成分数有意义，在很一般的情况下（具体说就是题目之间的误差不相关），α 系数是合成信度的下限。如果α 系数高到可以接受（例如，能力测验0.7 以上，人格测验 0.6以上），合成信度就可以接受。如果α 系数过低，应当使用CFA 计算合成信度（温忠麟, 叶宝娟 , 2011; 叶宝娟 , 温忠麟 , 2012a）。比较好的做法是报告量表的合成信度及其置信区间（叶宝娟,温忠麟 , 杨强, 任皓，2013）。

2.3 检验共同方法偏差

常用的是 Harman 单因子检验（周浩，龙立荣， 2004），但已有研究指出单因子检验存在问题，推荐引入方法因子进行检验 (Podsakoff, Mackenzie, Lee, & Podsakoff, 2003)，即建立双因子模型，在原有设计的因子基础上加上一个方法因子作为全局因子（顾红磊 , 温忠麟, 2017; 顾红磊 , 温忠麟 , 方杰, 2014）。如果原来多个量表放在一起的 CFA 模型（因子之间允许相关）加上方法因子后，模型拟合指数变好很多（例如，CFI 和 TLI提高幅度超过 0.1， RMSEA 和 SRMR 降低幅度超过 0.05），说明存在严重的共同方法偏差。

检验共同方法偏差的同时，可以一并考虑检验变量（量表）的区分效度。如果两个或多个量表的题目当作一个因子的题目拟合模型，拟合指数没有明显变差（例如，CFI 和 TLI降低幅度不超过 0.03， RMSEA 和 SRMR 提高幅度不超过0.01），说明变量区分效度低。首先是所有题目放在一起的单因子模型，应当是拟合最差的一个。然后逐步增加因子，最后是一个量表一个因子的模型，这个模型是系列模型中拟合最好的，拟合指数应当达到可以接受的标准才能进行后续 SEM 分析，不然可以考虑用各变量（量表）的合成分数进行建模（前提是合成信度可以接受）。

杨明等人（2017）研究职业胜任力对工作要求 -资源模型的影响机制时，分析了五个变量的区分效度，通过对比不同因子模型，发现五因子模型优于其它竞争模型，故五个变量的区分效度良好。在这基础上，建立双因子模型检验共同方法偏差，模型拟合指数见表 1。结果显示，在五因子基础上加入

表 1 变量的区分效度及共同方法偏差检

注：JR= 工作资源；JD= 工作要求；CC= 职业胜任力；WE= 工作投入；EE= 情感衰竭。单因子：EE+WE +JR+CC+JD；两因子：EE;WE+JR+CC+JD；三因子：EE; WE; JR+CC+JD; 四因子: EE; WE; JD; JR+CC; 五因子: EE; WE; JD; JR; CC。

共同方法因子后，模型拟合指数并没有明显的改善，CFI、TLI均只提高0 .01，说明共同方法偏差不严重。

题目打包

对于问卷数据，使用 SEM 分析潜变量之间的关系（即结构模型分析）已经很常见，样本容量需达到题目（指标）数量的 10倍以上，或者自由参数的 5 倍以上（侯杰泰等，2004）。若样本容量达不到这个要求或量表每个维度的题目过多，可考虑使用题目打包法 (itemparceling)，即把同一个量表的两个或更多的题目打包成一个指标，用合成分数（总分或均值）作为新指标的分数进行分析(Kishton& Widaman, 1994; Yang, Nay, &Hoyle, 2010)。从某种意义上说，题目打包不是什么新做法，因为使用量表合成分数建立回归模型，其实就是将题目打包当作显变量建模。打包法可使指标数据质量变好、模型拟合程度提高，而且估计偏差不大。

多重共线性检验

对于回归分析，若自变量之间相关很高，则可能存在多重共线性问题，导致参数估计出现偏差，或者标准误很大，模型失真（陈希孺，王松桂，1987）。如果各自变量的方差膨胀因子(variance inflation factor, VIF) 皆小于 5，一般认为不存在多重共线性问题，VIF小于 10说明多重共线性问题不严重 (O' Brien, 2007)。以自变量Xj 为例，相应的VIF =1/(1-R 2)，其中R 2 是X，对其他自变量做回归，得到的测定系数（即Xj 的变异被其他自变量解释的比例）。VIF >5（或 10）意味着R 2 超过 0.8（或0.9）。也有文献将 (1-R 2) 称为容许度或容忍度 (tolerance)， VIFj>5（或 10）意味着容许度 <.2（或 .1）。社科研究中很少出现严重的多重共线性问题。如何处理多重共线性问题，可参考回归分析专著（例如，陈希孺，王松桂，1987）。

对于中介模型，如果中介变量和自变量相关非常高（如高达 0.9，此时 VIF=5.26），则也有多重共线性问题，影响中介效应和直接效应的估计精确度和稳定性（王惠文, 吴载斌 , 孟洁 , 2006）。对于调节效应模型，变量中心化可以减少非本质的共线性问题（温忠麟, 刘红云 , 侯杰泰 , 2012; Echambadi &Hess,2007）。例如，在叶宝娟、杨强、胡竹菁（2012）的一项研究中，建模前各变量做了中心化处理，所有自变量的 VIF 均低于 1.28，故不存在多重共线性问题。

建模依据

社科中比较经典的推论因果关系的三个准则是 ( 温忠麟，2017b; Cook&Campbell, 1979)：(i)因在果之前发生；(ii) 因和果共同变化；(iii) 排除因果联系外的其他解释。其中第 (i) 个准则涉及建模依据，即变量之间的先后顺序需要理据。第 (ii) 个准则是通过建模以后的统计分析来判断，就是通常的显著性、效应量等议题，本文不拟涉及。第 (iii) 个准则实际上就是变量控制的问题（见下一节）。

模型反映了变量之间的关系和设定。对于直接关联的两个变量，可能是并列的相关关系，也可能是先因后果的影响关系（通常用箭头表示）。建模需要有依据，就是要求模型中的每个箭头连结的两个变量的先后顺序都有理论、文献或者生活经验的支持。其中一种常用方法是，看两个变量的属性决定先后：如果X是比Y更加本质的（或者是长久的、稳定的、客观的）属性，则X在Y的前面（温忠麟，叶宝娟，2014）。区分变量顺序的另一种方法是颠倒两个变量的顺序，看哪一个更容易解释（温忠麟 , 2017b）。如果不能用上面方法分清先后，可以通过所谓的交叉滞后设计 ( 白学军 , 2012; Kenny, 1975)，获取历时性的数据，看看两个变量究竟谁影响谁，或者谁影响更多一些。

变量控制

变量控制是因果推理的重要环节。要控制的变量是除自变量外可能会对因变量造成影响的非研究变量。常见的控制变量是人口学变量，此外还要根据前人研究适当考虑其他的控制变量。从获取数据的方法设计来看，问卷法对非研究变量的控制远不如实验法，因而对问卷数据的统计控制尤为重要。最简单的做法是分别做自变量和因变量（SEM 则使用指标）对控制变量的回归，用残差作为变量的观测值（温忠麟,2017b）。例如，任皓等人 (2013) 注意到性别、年龄等人口统计学变量及教育、工作经验等人力资本变量会对员工的心理资本和组织公民行为产生影响，故分别做心理资本、组织公民行为对这些控制变量的回归，将相应的残差值作为心理资本、组织公民的观测值进行后续分析。

结语

统计建模前的不少工作还是需要统计技术来完成。即使一项研究只是用量表合成分数（总分或平均分）进行简单的回归分析，也需要使用CFA对所用的量表进行评价。换句话说，基于问卷数据的研究， CFA 是不可或缺的工具，哪怕最后只是简单地做一个回归分析。

如果要分析因果关系，一般来说问卷法不如实验法严密。但如果提出的因果顺序在常识上、逻辑上和学理上是合理的，而且主要的无关变量也得到控制，那么问卷法也可以建模验证因果关系（温忠麟， 2017b）。

本文只是介绍问卷数据建模之前需要考虑甚至完成的若干工作，但难以事无巨细地介绍具体该如何做，有需要的读者可循本文参考文献找到更多相关的文献进一步学习。