测验公平

求是1025 2023-04-04 发布于山东

展开全文

作为有效甄选或鉴别人才的重要手段，测验对倡导公平公正的社会理念，确保个体的机会公平、起点公平和过程公平有独到的作用。公平的测验保证了受测者的测验分数差异体现了所测构念水平的差异，而非其他无关因素所导致。

从测量学的角度看，测验公平重点考察以下4个方面的公平：①没有偏差的公平性。当测验本身存在缺陷，使得不同亚群体被试的考试分数有不同的意义或不可比时，就可能存在测验偏差。②测试过程中同等对待的公平性。测试过程中，公平对待全体被试，指的是程序的公平性。包括同样的测验、测试目的、测试环境、测试过程、测试评分及分数的使用等。③学习机会的公平性。测验所包含的内容对于全体被试而言，应该有相同的学习机会。④测试结果的公平性。有两种不同的理解：一是考试分数在不同的亚群体当中应当有着相同的分数分布；二是所有统一考试的结果都是以分数的形式表现的，如何解释与使用这个结果。从测量学的角度来看，测验的公平性就是要求被试所具有的那些与测试构想无关的个体特征不影响其测试结果及解释。因此，鉴别和剔除那些可能因为不同群体被试存在的与测试构想无关的因素而影响到被试的测试结果的试题，是测验公平的重要保证。

影响测验公平的因素有以下几种：①考试内容存在偏见。考试内容设置不当，对不同亚群体的作答产生不同的影响，这是影响测验公平的最重要因素。包括不公平的惩罚和冒犯。不公平的惩罚指测验内容可能对来自某一群体的被试构成不利影响而歪曲他们的表现。冒犯指在测验中出现对某一亚群体的消极刻板印象的内容，如对性别、特殊种族、民族或宗教群体的忽视、谩骂及讽刺等。这样的测验内容容易分散被试的注意力，使他们不能正常地发挥水平。为了避免因考试内容设置不当而引起测验偏差，可以在施测之前进行严格的审查。②作答说明和试题的表述存在歧义。如果不同亚群体的被试对作答说明和试题表述的理解有所不同，那么依据这个考试结果对被试水平进行评价就可能违背了公平性原则。对此，一方面要求作答说明和试题的表述尽可能地用简洁、通俗易懂的语言来表达；另一方面，测试前可组织专家组对试题的表述进行审查，考查不同背景的被试是否会有不同的理解。③测验内容构建与考试目标不一致。这涉及测验效度的问题。包括测验类型与考试目标不匹配、测验内容水平高于或低于测试目标两种情况。在依据考试结果做出评价之前，应针对测验目标全面验证测验效度，包括从测验的理论结果、内容结构和对行为的预测能力等多个方面收集证据。当测验分数对不同亚群体有不同的意义时，在尽可能的情况下，也应分别对每个有关的亚群体进行效度证据的收集。④考试结果的误用。考试都有其特定目的，在将考试结果用于其预定目的之外时，评价的效果可能不佳，甚至是不公平的。运用考试结果进行评价时，首先要清楚考试设计的目标是什么。如果评价目标与其不一致，就要考虑能否继续进行评价工作，并且要针对考试结果的新的应用目标收集效度证据。其次可采用一些补充信息来进行有效评价。⑤评分误差。评分误差常常是不可避免的，但一般的随机误差不影响考试评价的公平性。如果评分误差对于不同的群体或个体不等，并存在系统误差，那么对有些考生而言可能就不利。当可靠的研究报告表明不同的考生亚群体在某个测验的某部分与构念无关的方差效应上不相等时，如果要使用这项测验的话，它只能用于那些有证据表明可以从测验分数中获得有效推论的亚群体。⑥成绩不等值。成绩不等值致使不同地区、不同年份、不同学科之间无法比较，降低了评价的有效性，甚至有的评价无法进行。要提高评价的有效性，扩大评价的对象范围，就必须开展测验等值工作。只有进行了有关的等值设计与测验，才可能使得不同地区、不同年份之间的成绩进行比较。将不同学科的成绩形成一个总分来评价个体或群体水平时，要研究分数合成的理论与技术，其中较为简便的是可以将各科成绩转换为标准分数，然后求标准分数之和。