你的抽样调查结果可信么？——论调查研究中信度和效度的涵义与解读

树悲风 2016-07-16

展开全文

作者：雪代巴。心理学硕士，PM/UR，来自迅时通信。
公众号：UXRen（ID：cnUXRen）
作者授权早读课发表，转载请联系作者。

欢迎投稿到早读课，投稿邮箱：mm@zaodula.com

在对用户进行定量分析中，当我们无法通过“大数据”获取所有人的信息时，可以通过抽样的方法获取一部分人的信息，然后通过推论来了解这类用户的特点，也就是抽样调研。

在抽样调研中，从问卷或量表的编制、到人群抽样或被试筛选、到问卷或量表的发放，直至数据收回的漫长过程中，我们不仅要分析数据的结果和结论，还要思考如何衡量研究过程的效果，调查质量的高低，以及数据可推论的到总体的程度，这就需要通过信度和效度来表达。

1.信度与效度

1)信度（Reliability）

指测量结果的稳定性程度，换句话说，对同一特质反复测量，结果的一致性程度。比如，某测量体重的产品，连续三次站上去测量出来的体重差异很大，说明这个体重秤的信度很低。信度有以下几类：

不同信度的使用前提、适用对象及计算方法都有差异，如高考作文评分、职业选拔中的面试，就有必要考虑评分者之间的一致性，一致性高，评分者信度高。上述的体重称多次重复测量结果不一致，指的就是重测信度很低。

2)效度（Validity）

指是否反映了欲测量的特性及程度。比如，HR想通过问卷了解一个人的社交能力，问卷中却出现大量的管理能力的试题，这样无论在特性上，还是程度上都会受影响。效度一般有以下几类：

不同效度的使用前提、适用对象及计算方法都有差异，如上述HR的问卷，显然是内容效度很低。

3)信度与效度的关系
效度受信度制约，效度高信度一定高，信度高效度不一定高。

我们把需要测的东西比喻成靶心。

a.点集中在靶心（能测到要测的东西，效度高），测量的点都比较集中（随机误差小，信度高）
b.点不都在中心环（测不到要测的，效度低），点分布离散（随机误差大，信度低）
c.点不在中心（测不到想测的，效度低），点分布在一个区域（随机误差小，信度高）

2.调研报告中信度和效度的解读

从信度和效度的定义可以看出，根据不同的需求，我们可以用不同的信效度计算方法，从而得到对调研结果的不同解读。下面介绍一下如何解读调研结果。

下面虚拟一个顾客对玩具偏好分析的研究，带大家一起来看一下如何分析与理解信效度~

假如，我们找100个大人对10类儿童玩具进行评分，分数为1-10分。大家也可以假想成对其他产品进行评价、对某产品各方面的评价、或者对某产品的多个功能进行评价等。

1)效度

效度分析常用因素分析法，因素分析通俗地理解就是把问卷或量表分成几部分，每部分代表一定的意义，并且每部分内的题目间有密切关系。

基本思想是通过对变量的相关系数矩阵的内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系，但在这里，这少数几个随机变量是不可直接观测的，通常称为因子。然后根据相关性的大小把变量分组，使得同组内的变量之间相关性较高，但不同组的变量相关性较低。

因素分析主要有两种：

a.探索性因素分析（Exploratory Factor Analysis, EFA），寻求问卷或量表的潜在结构，使之变成一组题目少但彼此相关较大的变量。可理解为问卷主要测的内容是什么。（内容效度）
b.验证性因素分析（Confirmatory Factory Analysis, CFA），根据理论或知识对因子结构做出的验证，计算拟合实际数据的程度。可理解为多大程度上测出希望测的东西。（结构效度）

如果已经有编制好的成熟的问卷或量表，说明已经有了内容效度（别人已经指明了问卷是测什么的了），我们只需要通过验证性因素分析验证结构效度即可。探索性因素分析适合于在没有理论支持的情况下对数据的试探性分析。对于上述虚拟的关于玩具评价的调查，我们需要先进行探索性因素分析。

A.探索性因素分析

探索性因素分析可以通过SPSS进行，主要指标及解释见下表：

根据以上结果确定各个维度的题目（说明哪些题目是测哪个维度的），并根据同一维度下题目的特点，对各个维度命名（即内容效度，说明自己要测的是什么）。假设我们通过SPSS进行了数据分析，下面解读一下分析结果。

看是否适合因素分析

这个调查问卷显然不是成熟的量表，所以需要进行探索性因素分析，首先检验是否适合做因素分析。KMO=0.7，Bartlett检验的P=0.04，说明适宜做因素分析。

看累计解释率与特征值从图中看出，前两个因子特征值（Total）都大于1，且前两个因子能解释10个变量（即10类玩具的评价）中69.576%的变异，接近70%。

看因子载荷可以看出因子1包含1、2、3、5四个题目，因子2包含7、8、9、10四个题目，4和6两个题目因为因子载荷低，也就是说对因子的贡献率低而排除。

给两个因子命名。

分别根据这两个因子中题目的特征（即玩具的特征），给两个因子命名。分析发现第一个因子的玩具体积都比较大，第二个因子的玩具操作都比较复杂，因此把1命名为“体积”，2命名为“复杂度”。

B.验证性因素分析

把探索性验证分析的结果放到结构方程中拟合形成模型，再看拟合指标是否合适，并进行调整，模型拟合程度良好说明该量表能够在一定程度上测量自己想要的东西。

拟合指标：需要把自己的模型与饱和模型（估计所有参数，包括题目间的相关）比较，因为饱和模型含有所有的信息，估计了所有的参数，如果比较结果差异不显著，或者比较的“相似度”高，说明预设模型保留了饱和模型中的大部分信息，可以使用。

验证性因素分析一般通过AMOS或LISREL进行，通过拟合指标来检验：

验证之前的结果，从图中看出，第5题因子载荷小于0.35，可以考虑删除。其他题目没有问题，同时假设其他拟合指数符合上述指标，整个问卷的效度还是比较理想的。

2)信度

在调查研究中，常用同质性信度，又称内部一致性信度，其中克隆巴赫α（Cronbach’s α coefficient）系数适用范围比较广，也是最简单易行且常用的方法。

一般计算方法是在SPSS中选择Reliability Analysis，然后对问卷整体或某一个维度内不同题项进行分析。

DeVellis(1991)认为，克隆巴赫α系数在0.65～0.70为最小可接受值，0.70～0.80相当好，0.80以上是非常好。

分别对两个因子的信度进行检验，结果如下表：

根据表中数据可以看出，两个因子的效度都可以接受，说明问卷稳定性比较好，测验内部一致性程度比较高。

3.减少误差，提高信效度

误差主要有系统误差、随机误差和抽样误差三类，有些文献把抽样误差归于随机误差内，下图为误差与信效度的关系。

1)抽样误差

定义：抽样变动或抽样方法本身造成的误差，可以理解为样本估计的值与总体指标之间的偏差。

举例：例如，我们想了解用户对产品某个功能的喜好程度，由于无法获取所有人的评价，因此通过电话回访，抽取一部分用户对其进行评分，这一部分用户喜好程度的平均数，很可能与所有人喜好程度的平均数有差异。

抽样误差是不可避免的，在其他条件不变的情况下，抽样单位的数目越多，抽样误差越小；在其他条件不变的情况下，总体的离散程度（方差、标准差）越小，抽样误差越小。此外，

不同的抽样方式也会对其造成影响。

抽样误差与测量的优劣没有必然联系，信度或效度研究时，可以忽略抽样误差。

2)系统误差

定义：与测验目的无关的因子引起的恒定的、系统的、有规律的变化，存在于每次测量中，因此又称常定误差。

举例：比如我们发现药店的体重称和家里的体重称结果不一样。如果家里的称是准确的，那么药店对所有人称的体重都会造成有规律的偏差（比如偏胖5斤），这就是系统误差。在问卷编辑时，如果语言描述模糊或模棱两可，很可能存在一致性的评价倾向。如

“这个界面的颜色、布局和文字描述，您的感受是”

A很不喜欢B不喜欢C不确定D喜欢 E很喜欢

这里面透露了颜色、布局和文字三个内容，对于三项内容感受差异大的用户来说，很多人会倾向选“不确定”来“中和”内心的纠结。

系统误差直接影响测量的准确性，与效度有关。

3)随机误差

定义：与测量目的无关的偶然因素引起的，使得几次测量结果不一致，且这种不一致是随机的，又称观察误差或偶然误差。

举例：比如用户在填问卷时心不在焉，随便填写；或者在体验某产品时身体不适或紧张，或现场偶然发生噪声，这些都会引起用户的反应，从而可能对产品的评分造成影响。

随机误差不仅影响测量的准确性，而且影响测量的稳定性，与信度和效度都有关系。

凡是能引起随机误差的因素（被试、主试、测量内容、施测情景等），都会影响测量信度。任何误差的增加都会降低效度，要提高效度，就需要控制随机误差、减小系统误差。
测量误差通常来源于测验本身（如上述系统误差中的界面调查）、测验实施过程（如抽样方法或实施过程中的噪音）和用户本身（如用户的身体不适或心不在焉），因此在调研过程中需要全面考虑这三个因素的影响，尽量减少误差。