2007年北大自考心理测验学串讲笔记二

灏然居 2014-03-24

展开全文

　　第三章　测验的信度

　　第一节　信度的概念

　　1.信度是指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测量，所得结果的一致程度。信度只受随机误差的影响，随机误差越大，信度越低。

　　信度理论定义：传统的信度理论认为，每一个测验的实得分数(X)总是由真实分数(T)和误差(E)，两个部份构成的，公式为：

　　X=T+E

　　讨论一组测验分数的特性时，可用方差导标具体分数，公式：

　　(测验实得分数的方差)＝ (测验真分数的方差)＋ (测验误差的方差)

　　操作定义：一组测量分数的真分数方差与总方差(实得分数的方差)的比率，或者是真实分数方差占总方差的的百分比。计算公式：

　　由于真实分数的方差是无法统计的，因此公式3-3可转化为：

　　在(书上)图3-1下面的话看一看。

　　2、信度的指标

　　(1)信度系数：大部分情况下，信度是信度系数为指标，它是一种相关系数。理论上说就是真分数方差与实得分数的方差的比值，公式是：

　　(2) 测量标准误：信度系数表示一组测量的实得分数与真分数的符合程度，但并没有直接支出个人测量分数的变异量。

　　测量的标准误与信度之间呈反比关系：标准误越小，信度越；标准误越大，信度越低。

　　3、信度与测验分数的解释：(1)解释真实分数与实得分数的相关：信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。(2)比较信度可以接受的水平：一个测验究竟信度多高才适合，才让人满意呢？当然，最理想的情况是 =1.00，但实际上办不到。一般原则是：当 <0.70时，测验不能用于对个人作出评价或预测，而且不能作团体比较；当0.70≤ <0.85时，可用于团体比较；当 ≥0.85时，才能用来鉴别或预测个人成绩或作为。(3)解释个人分数的意义：从信度可以解释个人分数的意义，这是测量标准误的应用。它有两个作用：一是估计真实分数的范围；二是了解实得分数再测时可能的变化情形。看书公式3-8。(4)比较不同测验分数的差异：测量标准误和测验信度在评价两个不同测验的分数是否有明显差异时也非常重要。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。

　　第二节信度的类型及估计方法

　　1、重测信度：又称稳定性系数。他的计算方法是采用重测法，即使用同一测验，在同样条件下对同一组被试前后施测两次测验，求两次得分间的相关系数。

　　最适宜的时距随测验的目的、性质和被试的特点而异，一般是两周到四周较宜，间隔时间最好不超过六个月。

　　重测信度的前提假设是：⑴所测量的特性必须是稳定的；⑵每个人对前一次反应的遗忘程度相同；⑶在时间间隔中没有学习另外的与测验有关的东西。

　　2、复本信度：又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体，然后求得被试在两个测验上得分的相关系数，这个相关系数就代表了复本信度的高低。

　　复本信度的高低关键取决于复本测验的选择，因而是题目取样问题。

　　同重测信度一样，复本信度也要考虑两个复本实施时间间隔。如果两个复本几乎是在同一时间内施测的，相关系数反映的才是不同复本的关系，而不掺有时间的影响。如果两个复本的施测相隔一段时间，则称稳定与等值系数。稳定与等值系数既考虑了测验在时间上的稳定性，也考虑了不同题目样本反应的一致性，因而是更为严格的信度考察方法，也是应用较为广泛的方法。

　　内部一致性信度包括：分半信度和同质性信度。(1)分半信度：指采用分办法估计所得的信度系数。这种方法估计信度系数只需一种测验形式，实施一次测验。通常是在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。○1常见的是将测题按其序列号的奇偶分半，这种分法的前提是：测题并非随机排列，而是按某种顺序(如难度)排列；如果随机排列的题目，则必须是所有题目平等的(要么难度相等，要么性质一样)；如果测验有多个分量表，应该在分量表内部排好顺序，再把各分量表分两半组合起来求相关。○2常用的修正公式是：斯皮尔曼-布朗公式：

　　3、斯皮尔曼-布朗公式为经验公式，他的假设条件是两半测验分数的变异数相等，但实际资料有时未必完全符合这一条件。当假设不成立时，可采用：弗朗那根公式或卢伦公式中的任一一个。(公式见书3-12、3-13)

　　同质性信度：指测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，测验即为同质的；若所有题目看起来好像测量的是同一特质，但相关很低或为负相关时，测验即为异质的。此外，对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干相对异质的分测验，并使每个分测验内容具有同质性，这样每个分测验就能用来预测异质效标的某一方面。同质性信度的公式主要有：库德-理查逊公式：常用的是K-R20公式，在个各测题难度相同或近似的情况

　　下，还可采用计算更为简便的K-R21公式。

　　克伦巴赫α系数(这几个公式在书上好好看看)

　　4、评分者信度：用于测量不同评分者之间所产生的误差。为了衡量评分者之间的信度高低，可随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据美分测验卷的两个分数计算相关，即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的。

　　第三节影响信度的因素

　　1、样本的特征：(1)样本团体分数分布的影响：任何相关关系都是受到团体中分数分布的影响，当分布范围增大时，其信度估计就较高；当分布范围减小时，相关系数随之下降，信度值则较低。(2)样本团体异质性的影响：若获得信度的取样团体较为异质的话，往往会高估测验的信度，相反则会低估测验的信度。样本团体平均能力水平的影响：对于不同水平的团体，题目具有不同的难度，每个题目在难度上的微小差异累计起来便会影响信度。

　　2、测验的长度：在一个测验中增加同质的题目，可以使信度提高。①测验越长，测验的测题取样或内容取样越有代表性；②测验越长，被试的猜测因素影响越小。

　　3、测验的难度：如果一个测验对某团体而言太容易，会使所得分数都集中在高分端；当题目太困难时，得分就会集中在低分端。两种情况均会使信度样本的分数范围变窄，从而使测验变得不够可靠。

　　4、测验的时间间隔：以再测法或复本法求信度，两次测验相隔时间越短，其信度系数越大；间隔时间越久，其它变因介入的可能性越大，受外界的影响越大，信度系数便越低。

　　第四章测验的效度

　　第一节效度的概念

　　1、效度是指所测量的与所要测量的心理特点之间符合的程度，或者简单地说是指一个心理测验的准确性。效度是科学测量工具最重要的必备条件。(1)一组测验分数的总方差等于真实方差与误差方差之和，而真实方差又可分为两部分，即有关的方差和无关的但稳定的方差，后者也就是所谓系统误差带来的方差 (公式4-2)。

　　2、信度和效度的关系(1)信度是效度的必要而非充分条件：从方差分配公式：可以看出，增大，即效度高，信度的真方差( )必然大，故信度必然高。当信度高时，即降低时，是否增加还要看是否增减，因此效度不一定就高。效度高必然信度高，而信度高并不一定保证效度高，说明信度高只是效度高的必然条件，并不是效度高的充分条件。(2)效度是受信度制约的

　　3、效度的性质：(1)a效度具有相对性：在评鉴测验的效度时，必须考虑其目的与功能。只有所测的结果符合该测验的目，才能认为它是个有效的测量工具。(2)效度具有连续性。测验效度通常用相关系数表示，它只有程度上的不同，而没有“全有”或“全无”的区别。因此，我们评价一个测验时，不应该说“有效”或“无效”，而应该用效度较高或效度较低来评价。

　　第二节效度的类型与估计方法

　　一、效度的类型及评估方法

　　1、内容效度：指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。(名词解释)

　　(1)想编制有较高内容效度的心理测验：○1要对所测量的心理特性有个明确的概念，并划定出哪些行为与这心理特性有关，又比较密切。○2测验题目应是所界定的内容范围的代表性取样。

　　(2)需要说明的是，要求内容效度的测验，并不一定要求测验为同质的。

　　2、内容效度的评估方法：(1)专家判断法：为了确定一个测验是否有内容效度，最常用的方法是请有关专家对测验题目与原定内容的符合性作出判断，看测验的题目是否代表规定的内容。如果专家认为测验题目代表了所测内容，测验就是有内容效度。由于这种估计效度的方法，是一个逻辑分析的过程，所以内容效度有时也可称为“逻辑效度”。(2)统计分析法：计算两个评分者之间评定的一致性，虽然考察的是评分者的判断信度，但由于来自两个独立的评判者，因此符合程度越高越能反映测验的内容效度。克伦巴赫提出，内容效度可由一组被试在独立取得自同样内容范围的两个测验复本上得分之相关来作数量的估计。再测法也可用于内容效度的评估。(3)经验推测法：通过实践来检验效度。如果通过率是随着年龄的增加而增加，就可以推测该测验有内容效度。

　　3、内容效度与表面效度的关系：经常混淆。表面效度是由外行对测验作表面上的检查确定的，它不反映测验实际测量的东西，只是指测验表面上看来好像是所要测的东西；内容效度是由够资格的判断者(专家)详尽地、系统地对测验作评价建立的。虽然二者都是根据测验内容作出的主观判断，但判断的标准不同。前者只考虑题目与测量目的之间的明显的、直接的关系，后者则考虑到题目与测量目的和内容总体之间逻辑的微妙关系。如果测验内容看起来与测量目标和要作的决定不相干，就会使被试产生不配合、马马马乎乎、应付了事等反应，而影响测验的效度。相反，典型行为测验却要求较低的表面效度。如果被试很容易从测验题目看出测验的目的，就可能产生反应偏差(如掩饰等)。

　　二、构想效度

　　1、构想效度：1954年提出，有人翻译为构思效度，也有叫结构效度。它是指测验能够测量到理论上的构想和特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。

　　2、构想效度的估计方法：(1)对测验本身的分析：对测验本身的分析：测验的内容效度可以作为构思效度的证据；测验的同质性指标可以推断测验是测量单一特质还是测量多种特质，从而为评估测验构思效度提供证据；分析被试对题目的反应特点也可以作为构思效度的证据。(2)测验间的相互比较：相容效度是构思效度的一个证据。区分效度是构思效度的又一个证据，一个有效的测验不仅应与其他测量同一构思的测验有关，而且还必须与测量不同构思的测验无相关；因素分析法也是建立构思效度的常用方法，通过对一组测验进行因素分析，可以找到影响测验分数的共同因素，这种因素可能就是我们要测量的心理特质(构思)。(3)效标效度的研究证明：一个测验若效标度理想，那么该测验所预测的效标的性质和种类就可以作为分析测验构思效度的指标，另一种证实构思效度的方法是心理特质的发展变化。实验法和观察法证实：观察实验前和实验后分数的差异是验证构思效度的方法。

　　三、效标效度

　　1、效标效度：又称实证效度，反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准，简称效标。由于这种效度是看测验对效标预测如何，所以叫效标效度。这种效度需在实践中检验，所以又称为实证效标。

　　分类：根据效标资料是否与测验分数同时获得，又可分为同时效度和预测效度两类。同时效度即测验所得分数可与效标同时验证，通常与心理特征的评估及诊断有关。预测效度的效标资料需要一段时间才可搜集到，通常用于选拔、分组。因为效标资料在考试以后相隔一段时间才能获得，所以高考的效标是一种预测效标。同时效标和预测效标意义上的差异，不是来源于时间，而是来自测验的目的。前者与用来诊断现状的测验有关，后者与预测将来结果的测验有关。

　　一个好的效标必须具备以下条件：

　　○1必须能最有效地反映测验的目标，即效标测量本身必须有效；

　　○2效标必须具有较高的信度，稳定可靠，不随时间等因素变化；

　　○3效标可以客观地加以测量，可用数据或等级来表示；

　　○4效标的测量的方法很简单，省时省力，经济实用。

　　2、效标和效标测量：效标，即衡量测验有效性的参照标准，指的是可以直接而且独立测量的我们感兴趣的行为。我们感兴趣的行为，就是要预测的行为，这是一个总的观念，故必须以可操作的测量来确定才有实际意义。因此有必要把效标细分为两个层次，其一是理论水平的“观念效标”, 其二是操作定义水平的“效标测量”。

　　3、常用的效标包括：○1学业成就：如在校成绩、学历、有关的奖励和荣誉、教师对学生智力的评定等，常作为智力测验的效标，也可作为某些多重能力倾向测验和人格测验的效标。○2实际工作表现：是最满意的效标测量，为一般智力测验、人格测验和一些能力倾向测验的效标；○3特殊训练成绩○4精神病诊断；○5等级评定：是观察者根据测验欲测量的心理特质在被试身上的表现而作出的一种个人判断；○6效标团体的比较：即找出两个在效标表现上有差别的团体，比较他们在测验分数上的差别；○7先前有效的测验：一个新测验与先前有效的测验的相关也经常作为效度检验的证据。(简答)

　　第三节效度的表示方法及应用

　　一、效度的表示方法

　　1、相关法：效度系数是最常用的效度指标，尤其是效标效度。它是以皮尔逊积差相关系数来表示的，主要反映测验分数与效标测量的相关。当测验成绩是连续变量，而效标资料是二分变量时，计算效度系数可用点二列相关公式或二列相关公式；当测验分数为连续变量，效标资料为等级评定时，可用贾斯朋多系列相关公式计算。

　　2、区分法：是检验测验分数能否有效地区分由效标所定义的团体的一种方法。算出t值后，便可知道分数的差异是否显著。若差异显著，说明该测验能够有效地区分由效标定义的团体，否则，测验是无效的。重叠百分比可以通过计算每一组内得分超过(或低于)另一组平均数的人数百分比得出；另外，还可以计算两组分布的共同区的百分比。重叠量越大，说明两组分数差异越小，即测验的效度越差。

　　3、命中率法：是当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。命中率的计算有两种方法，一是计算总命中率，另一种是计算正命中率。

　　4、预期表法：是一种双向表格，预测分数排在表的左边，效标排在表的顶端。从左下至右上对角线上各百分数字越大，而其它的百分数字越小，表示测验的效标效度越高；反之，数字越分散，则效度越低。

　　二、效度的应用

　　1、预测误差：效度系数的平方，统计学上称这种指标为决定系数，表示测验正确预测或解释的效标的方差占总方差的比例。另一种表达方式是估计的标准误，简写为Sest，它是指所有具有某一测验分数的被试其效标分数(Y)分布的标准差，也即预测误差大小的估计值， (公式4-9)估计的标注误可如同其他标准误一样解释。真正效标分数落在预测效标分数±1Sest的范围内，有68%的可能性；落在预测效标分数±1.96Sest的范围内，有95%的可能性；落在预测效标分数±2.58Sest的范围内，有99%的可能性。

　　2、预测效标分数：如果X与Y两变量呈直线相关，只要确定出二者间的回归方程，就可以从一个变量推估出来另一个变量。在测验工作中，人们感兴趣的是从测验分数预测效标成绩。

　　3、预测效标指数：公式4-9中的又称作无关系数，以K表示之，K值大小表明预测源分数与效标分数无关的程度。(1-K)可作为预测效率的指数，用E表示：E＝100(1-K) (公式4-15)E值大小表明使用测验比盲目猜测能减少多少误差。

　　第四节影响效度的因素

　　一、测验本身的因素

　　1、测验题目的质量

　　2、测验的长度。(一般而言，增加测验的长度通常可以提高测验的信度，而信度又制约着效度，因此增加测验的长度也能提高测验的效度。)

　　二、测验实施中的干扰因素

　　1、主试的影响因素。测验实施过程中主试的因素会影响效度。对于效标效度，测验与效标二者实施时间间隔时间越长，测验与效标越容易受到很多机遇因素的影响，因此所求的相关必然很低。测验情镜，如场地的布置、材料的准备、测验场所有无噪音和其他干扰因素等也会影响到测验的效度。

　　2、被试的影响因素。被试在测验时的兴趣、动机、情绪、态度和身心状况、健康状态等都会影响测验的效度。(被试的反应定势也会降低测验的效度。)

　　三、样本团体的性质

　　1、样本团体的异质性。与信度系数一样，如果其它条件相同，样本团体越同质，分数分布范围越小，测验效度就越低；样本团体越异质，分数分布范围越大测验效度就越高。(1)只以选拔上的被试为样本团体参加效度研究，降低了测验的效度。(2)选拔标准太高，样本团体的同质性增高，降低了测验的效度。

　　2、干涉变量。样本团体的性质对效度的影响还表现在：对于同性质的团体，同一测验的效度会有很大的不同。这些样本团体的特质包括：年龄、性别、教育水平、智力、动机、职业和任何有关的特征。由于这写特征的影响，使得测验对于不同的团体具有不同的预测能力，故测量学上称这些特征为干涉变量。