测试等级划分

悟静 2013-12-30

展开全文

一、考试的效度

考试是一把尺子，被用来测量考生的能力。这把尺子本身可能存在质量问题。只有达到质量标准的考试才能被应用。坚持这把“尺子”的质量标准，不仅是为了通过考试把最优秀的人才选拔进学校、机关，而且是为了维护社会公正。根据一把质量不高的尺子将一些人拒之与学校、机构的大门之外，是不公正的。

效度，即有效性，是刻划考试质量的最重要指标之一，它反映了考试在多大程度上实现了考试目的。人们对于效度问题的认识是逐渐发展和深化的。国际心理测量学界对于效度问题的一些新认识体现在1999年修订的新版《教育与心理测量标准》（standards for educational and psychological testing，以下简称《标准》）中。《标准》是由美国教育研究协会（AERA）、美国心理学会（APA）和美国国家教育测量协会（NCME）三家联合颁布的。这一版本是对1985年版本的修订，从1985年的100页增加到1999年的194页，增加了许多内容。

根据1985年版本，效度证据来源于构念、内容和效度标准三个方面。在新版《标准》中，没有再沿用这种关于效度的分类，而是讨论了多种效度证据的来源。

㈠基于内容的证据(evidence based on content)

㈡基于反应过程的证据(evidence based on response processes)

㈢基于内部结构的资料(evidence based on internal structure)

㈣基于与其他变量之间关系的资料(evidence based on relations to other variables)

㈤基于测验结果的资料(evidence based on consequences of testing)

从1999年新版《标准》中可以看出，效度被重新定义为测验对构念所测量的程度。在效度的分类方面，已经放弃了1985年版《标准》中构念效度、内容效度、效度标准关联效度的划分，而是从内容、反应方式、与其它变量的关系、内部结构、测验结果等几个方面讨论了测验效度证据的来源。在新版《标准》中特别强调了从多种渠道积累效度证据的重要性。通过效度证据的不断积累，我们将更恰当地使用测验分数，更准确地对测验分数进行解释，将对测验构念的定义不断完善，将对测验本身不断地进行修订和完善。同时，在效度证据积累的过程中，我们可以发现和提出新的需要研究的问题。新版《标准》特别指出，测验的效度依赖于测验的精心编制，依赖于测验编制的理论框架，依赖于测验的施测和计分过程，依赖于分数等值，依赖于及时纠正测验过程中出现的不公平因素，等等。

二、合格线的设定

分界标准，又称分界分数或及格线（standard setting, cut-off score, cut score）。证书测验中，在胜任者和非胜任者之间需要确定一个区分点，而分界标准的确立就是决定在哪确定和如何确定这个点的过程。

在证书、执照、资格考试和教育测验中，分界标准是必不可少的指标，它保证了测验的科学性、应试者参与竞争的公平性，它为决策者（对区分应试者胜任与否做出最终的决定）或用人部门提供更丰富、可靠的信息，从而使用人部门的决策更明智。

对分界标准确立问题的研究，方法多达38种，研究长达50年，至今争论不断。虽然方法众多，但是确定分界标准问题仍是教育测量中一个棘手的问题。这主要是因为在这些方法中没有一个放之四海而皆准的选择，而且每个方法的结果也很难得到效度资料来验证。从这个意义上来说，几乎没有任何方法是绝对正确的。所以，与其说是需要最好的方法，不如说是寻找最适合的方法。

㈠专家的挑选和培训

专家的挑选与培训是标准确立过程中十分重要的组成部分，因为专家组的质量不仅可以影响分数线的结果，而且会影响标准的信度。

１专家的挑选

2专家的培训

㈡标准确立的方法

1　安哥夫方法（Angoff’s Procedure）

2 埃伯方法（Ebel’s Procedure）

3 奈德尔斯基方法 (Nedelsky’s Procedure)

4 对照组法 (Contrasting Groups)

5 边缘组法 (Borderline Group)

以上5种分界标准确立的方法中，以测验内容为中心的有：安哥夫方法、埃伯方法和莱德尔斯基方法；以被试为中心的是对照组方法和边缘组方法。以测验内容为中心的及格线确定方法也可以被称为判断法，以被试为中心的方法也可以被称为综合试验法。

㈢研究进展

近年来对分界标准的研究更为广泛和深入。广泛表现为研究的多角度：从只适合于单选题的方法，到结构问答题和多选题的方法探索；从专家评判方法，到专家培训的整套方法探索。深入表现为，对某方法的进一步验证和置疑，如：对于安哥夫方法，Impara 和 Plake(1997) 认为"是或否"的判断优于百分比判断。研究的深入还表现为围绕以测验为中心方法和以被试为中心方法的争论，例如：Jaeger和 Mills提出一种基于被试的新的方法，主要是把考生分为不胜任、基本胜任、胜任和优秀四类，专家对每位考生进行分类，然后将考生的测验成绩与先前的分类情况采用多元回归分析做比较，根据刚刚胜任的考生的分数来确定分界标准。

三、测验长度的确定

为什么一份测验要包括这么多道题目？确定测验长度的根据是什么？一般来说，任何一份测验都有一个适中的长度范围，如果测验太短，就会导致测验的信度较低，测验的功能下降，进而影响测验的效度。测验的长度增加，测验的信度也会提高（测验长度和信度的关系如图1所示），但是并不是测验越长，测验的信度就一直在增加。当测验长度达到某个程度后，信度的提高速度就明显下降，最终接近某个临界值，因此，测验长度与信度的关系并不是简单的正比关系。同时，测验太长，必然会导致施测时间的延长，考生在限定时间里的负担超过了其承受能力，必然导致疲劳、厌倦情绪，影响考生的答题动机，增加随机猜测的可能，反过来影响测验的信度；另一方面，测验太长，肯定会耗费大量的人力、物力，在测验的各个环节链上大幅度提高测验的成本，因此，在权衡信度、长度、考试时间和成本的基础上，如何确定一个最佳的测验长度问题，是所有测验所必须解决的问题。

图1 测验长度与信度关系示意图

一些研究表明，目前编制的测验中，如果将测验的长度适当缩短，不但不会降低测验的信、效度，有时反而还会带来测验信度、效度指标的提高（Matthias Burisch，1984），因此，测验长度与信度、效度的关系，并不是长度越长，信度越高，效度也相应越高的简单关系。

在开发一个新的测验时，开发设计者一般不可能从一开始就编制出一份长度适中、信度和效度又很好的测验，而总是设计大量的题目，以供进一步的筛选。经过预测，在进行题目分析之后形成一个题目集(Item pool)，或者建立一个题库 (Item bank) 。要确定测验长度，就需要从这个题目集或题库中选择题目，进行组合。确定测验长度的方法可以分成两大类。

㈠将现有的题目都看作等价

所谓等价指的是所有项目具有相似的题目统计量，被试个体在回答题目的时候，对每道题的回答是独立的，且每道题的正确回答的概率相同。

斯皮尔曼—布朗公式（Spearman-Brown Formula）预估法

使用简单的二项式模型法

随机组合法

㈡题目不等价时

由于题目之间的质量指标被看作有较大的差异，因此，在确定测验长度时，就要结合题目的信息来选择题目，而最终决定测验的长度，这种方法一般要通过计算机程序辅助进行，这些方法主要有以下三种：

穷尽法

利用项目反应理论来确定测验的长度

四、测验公平

考试公平性是评价考试质量的重要方面，也是一个受到广泛关注的问题。但是，什么样的考试才是公平的考试？回答这个问题，并不容易。

㈠考试并不是天然公平的

㈡组间差异与公平性

㈢有效的考试就是公平的考试

㈣考试的主要功能不是维护社会公平

㈤建立考试分数之间的可比性是保证考试公平性重要任务

㈥从“偏见（bias）”到DIF

㈦考试公平性的问题尚未解决

虽然人们越来越多地将公平性和效度联系在一起，并不意味着人们对公平性的看法已经取得一致。在美国，许多考试机构和考试的应用机构，在考试分数的解释方面，都强调对少数族裔和低收入阶层的照顾。在我国，多年来在考试中一直坚持着照顾少数民族的政策。这些，都是对“效度公平”观念的校正和调整。

在1999年新版的《教育与心理测验标准》中写到：“不论是就整个社会而言，还是就测量专业的学术界而言，近期都还看不到人们在测验公平问题上取得一致意见的前景。……公平性概念可以从多种角度来定义，公平并不完全是一个技术概念，关于公平的定义和解释随不同的社会和政治环境而变化。……需要再一次强调，本标准仅仅从技术角度提供了一些专门的指导，对测验负责任的使用，还需要有关价值和社会政策方面的考虑。”[第80页]

2000年卸任的ETS前总裁Cole和ETS命题负责人Zicky于2001年发表在《教育测量杂志》的一篇题为“公平性的新面孔”的文章中写到：“现阶段关于公平性的研究尚不能对任何测验公平问题做出简单的回答。60年代涌现出的对公平问题的研究最终是令人失望的。没有一种普遍接受的方法可以决定一项测验是否公平，没有一种统计方法可以清晰明确地证明一个题目是否公平，也没有一种技术上的解决之道。简而言之，过去的30多年没有研究出任何分析方法可以表明公平或不公平，也没有一种清楚的程序可以避免不公平。” [第375页]