穩定和等值係數

航海王魯夫 2009-05-22

展开全文

第二节有效测验的必备条件

一个有效的测验，不管它是客观的、标准的测验，还是非正式的、教师自编的测验，都需要有效度、信度、代表性和可行性。它还应当对好、中、差学生或学生集体有充分的辨别力。

一效度

何谓效度（validity）？一个测验的效度是指该测验测量其所要测量的东西达到了多么好的程度。一个测验要是没有效度，那么即使具有其他任何优点，都不可能真正发挥功能。因此，选用某种测验或自行编制测验，必须首先鉴定它的效度。

测验的效度是相对的。任何一种测验只是对一定的目的来说才是有效的。例如，一种能“甄别”严重违反社会常规者的测验，不能正确评价人的认知结构，或预测其独特的成就。所以，对所有的目的都有效的测验是没有的。我们不能笼统地说某测验是否有效，而应当说它对测量什么是否有效。此外，测验的效度通常以相关系数来表示，它只有程度上的不同而没有全或无的差别。

在心理与教育测量中，之所以有效度问题，主要由于许多测量对象不是物质实体而是假设的结构概念，因而这种测量是间接的、推论的，它不是以要测量的特性或能力的直接的行为样本为根据，而是从测量同结构概念有关的或是反映该概念的另一种可测的因素着手进行的间接测量。例如，学习能力、智力、性格等的测量，常常是借助反应时间、正误次数之类的测量所得的结果来推断的。一个测验的测分与它所要测量的特性或能力的关系越是间接，越是凭借推断的话，那么效度问题越是重要。因此，一个测验的分数与掌握某门学科的程度虽不是一回事，但它与智力测验的分数相比，其间接性和推论性少得多。

测验的效度有若干不同的类型。一个好的测验可以用一种或一种以上的效度来表示。

（一）内容效度（content validity）

内容效度是指测验的题目在多大程度上代表了所想测量的结构概念的整个内容。为此，必须考虑从总体中抽取样本，并对取样是否合适作出估计。例如从课程的某单元的内容中进行取样的课堂测验，在这个题目样本上所得的分数将用以推测学生在测验所包括的整个范围内的知识、技能与能力。

（二）预测效度（predictive validity）

预测效度是指测验分数对于未来的行为或作业测量能够预测得多么好。例如，用学习能力测验去预测大学生的平均成绩，用一个机械能力测验去预测一个人从事汽车机械工作的成功率等等。这种预测的准确性的指标就是测验的效度。在这里，存在找寻适当标准的问题。

我们看到，与预测效度有关的最重要方面是标准，因而又称为与标准关联（criterion－related）的效度。

（三）结构效度（construct validity）

结构效度涉及的是一个测验所测量的心理特质或属性。了解到一个测验是测量什么特质，就可用这个测验研究个别差异以及构思心理学的理论，例如有关解释智力或创造性的测验。结构效度通过论据的积累表明，论据证明测量的是什么品质。论据可以通过各种方式从各种不同的来源去积累，包括对内容和与标准关联的效度的研究。随着论据的积累，品质与测验的关系清楚了。

二信度

何谓信度（reliability）？一个测验的信度，是指该测验测量其所要测量的东西前后一致的程度。信度涉及到测验是否准确可靠的问题。这就是说，一个人在多次进行某一种测验时，如果得到近乎相同的分数，那么，可以认为该测验的信度是高的。当然，信度是进行测验的一个必要条件，但它并不是充分条件。高度可靠的测验也许完全不能测量到心理或教育上任何重要的东西。

测验的信度指标通常也以相关系数表示，所以称为信度系数（coefficient of reliability）。信度系数乃是同一样本所得的两组资料间的相关，用来作为测量一致性的指标。

表示心理与教育测验的信度，可用三类系数。

（一）等值性系数（coefficient of equivalence）

一个测验通常只是所有可能的题目中的一份取样，即一个样本，所以可以编制也必须编制平行测验。平行型测验与原测验有同样的内容、同类的题目，难度也一样，因而是等值的。有了等值型测验时，信度就表明同一测验的两型得分的一致性。我们先测量该测验中的一型（甲型），然后在最短时距内测量另一型（乙型），再求出这两型得分之间的相关，就可得到等值性系数。因此，等值性系数是某测验的两个平行型测验（或称替代性测验）在最短时距内施测所得成绩的相关系数。

在有些情况下，没有或无法利用另一等值测验，但需估计两种测分的相关系数时，可将测验分成前半与后半，或是按照奇数题与偶数题，平分成两型，求出它们的测验成绩，再求其相关系数。这就是所谓的“分半信度”（split－half consistency）。当然，它还反映测验题目的内部一致性，因此也常被称为“内部一致性系数”（coeffi-cient of internal consistency）。

（二）稳定性系数（coefficient of stability）

一般说来，可用测验来测量的品质或属性，都假定具有一定的稳定性，因此，要求取得一些有关稳定性的证据。此外，当测分用作长期计划的决策时，其稳定性尤为重要。即使是随时间而变化的品质或属性，能知道其测分在短时期内的稳定性也是好的。我们先用一个测验测量，过一段时间后，再用这个测验测量，计算测量与再测量得分之间的相关，即可求得稳定性系数。因此，稳定性系数可定义为同一测验施测两次的相关系数。两次试验的时距可长可短，根据两次测量间隔时间的长短，可得不同数值的信度系数。

（三）普遍性系数（coefficient of generality）

普遍性系数也是对一个测验的测量有多大一致性的估计，但这个测验是由测量同一品质或属性的异质的、但有关联的分测验组成的。异质（heterogeneity）与同质（homogeneity）相对。后者意指测验中不同题目的一致性。上述分半信度即内部一致性的测量，把它作为等值的特例。前者则相反，构成测验的各分测验是不一致的。例如智力测验常由若干分测验编成，每个分测验只是测量所要测量的品质或属性的一个方面。当这些分测验的测分互相有关的时候，平均的相关就可作为普遍性系数。普遍性系数是一个测验中许多分测验的测分的平均相关系数。

三代表性

几乎所有的心理与教育测量都是以取样的原理为根据的。实际上，要测验一名学生对某一门学科中的全部事实、概念和原理原则是否掌握是不可能的。因此，典型的做法是，选择关于这些内容的一个样本作为估计该样本所属的总体（或称全域）的基础。这个方法要在逻辑上站得住脚，至少必须符合如下两个条件：（1）样本必须具有代表性（representative），即适当地代表总体；（2）在符合代表性和意义性要求的这个限度内，样本必须是随机抽取的。例如，如果考试题目仅仅局限于一本指定教科书中一章的知识，如果每章的试题仅仅是其中的一段或一节的内容，那就很难说这个成绩测验的分数反映了所要测试的这本教科书的知识。这样一个成绩测验，不但缺乏内容效度，而且还不可避免地会在偶然性基础上对某些学生的知识估计过高，而对另一些学生的知识估计过低。现实情况是，许多成绩测验，特别是教师自编的那些成绩测验，往往仍未能符合上述代表性和随机性两个条件。

此外，由于不能认清一个测验是一个具有代表性的样本，也造成了实践中的两种错误情况。一种错误是教师对考试题目的“暗示”，或年复一年地重复相同的题目，这就使测分难以保证是学生所掌握知识的真实表现。另一种更为严重的错误则是，有些人认为与其说测分是一定岁月中直接行为的证据，毋宁说特性或能力的有效度量的测验所依据的是题目的一个代表性样本，而这些题目在推理上与某种特性或能力密切有关。于是，在一些国家特别是西方国家，测分、学位和证书被视为地位的象征，而不是能力的推论性的测量。

四辨别力

有效测验的一个显著特征，是最大限度地区分所测量的品质或属性有所不同的个体的能力。这个特征主要取决于测验项目的辨别力（discrimining power），同时，还反映与说明这个工具的信度和效度。可是，在一定程度上，这一特征也要看测验总分的分布，以及该测验是否为集体内的优良者提供了适当的升限（ceiling）情况而定。

比如说，测验分数如若呈正态分布（图13·1），那么在量表的两端（即伸展出的分数不多的部分）辨别力最大，而在量表的中间（即许多分数集中在一起的部分）辨别力较小。测验分数若呈长方形分布（量表各点上分数的次数相等，如图13·2），那么这个量表全距的辨别力就相等。此外，若呈偏态分布（即分数的分布很不均匀，堆积在量表的一端，如图13·3），那么，在分数不多的一端辨别力最大，另一端则辨别力最小。

良好的测验，还需有足够的上升限度，使一个集体里的优良者得以显露出来。很明显，如果成绩测验非常容易，该集体里中等程度的人也能得到90分，就不能将知识多的学生与知识少的学生区别开来。流行的看法是，测验所得平均分数大约在50％时，该测验辨别能力最大。然而，应当借助范围广泛的题目规定适当的上升限度，这些题目是仔细地根据难度标准而不是根据速度标准来分等的，因为迅速回答问题的能力所表现出的因素同优秀的能力或能力倾向基本无关。难度水平可以通过改变这些因素如抽象性、复杂性、熟悉性和理解程度进行处理。

五可行性

除了从理论上考虑，如效度、信度、代表性和辨别力以外，还必须考虑各种实际问题，才能决定测验的可行性（feasibility）。这里，应当考虑四点。（1）测验提供的信息有多大意义。换句话说，要看它在解释学生的能力、知识与人格特性以及在作出教育与职业方面的决定时有多大用处。琐碎的测验资料，不论多么可靠、有效或有辨别力，是没有价值可言的。可行性的成绩测验，应当给学生和教师在学习和教学的相对强弱上提供分化性反馈，并为之指明理由，否则，就不能起到诊断和补救作用。（2）可行性测验应当在形式与内容上适合于它所要测量的年龄范围内的学生。（3）要考虑到测验的费用以及进行测试、记分和解释所需的时间量。（4）评分是否客观，结果的解释是不是直截了当，记分和解释要不要特殊训练，测验手册是否提供了试测和记分指导语、常模表以及解释分数，凡此种种问题，均应认真考虑。