２０世纪教育测量学发展的回顾与现状评析(张敏强)

ItemBank 2010-12-04

展开全文

作者：张敏强主题类号：G1教育学

【文献号】1-629
【原文出处】教育研究
【原刊地名】京
【原刊期号】199911
【原刊页号】32～37
【分类号】G1
【分类名】教育学
【复印期号】200001
【标题】２０世纪教育测量学发展的回顾与现状评析
【作者】张敏强
【作者简介】张敏强，中山大学高教所所长、教授。广州 510275
【正文】
20世纪是教育测量学兴起并得到迅速发展的世纪。在理论上，经典测量理论不断得到完善，现代测量理论亦得以发展。在应用上，由于计算工具的飞速发展，使教育测量学的应用上了更高的层次并拓展至各个领域，反过来又促进了理论的研究和发展。本文对本世纪教育测量学的发展作了回顾，并对现状作出评析。
一、教育测量学简史
教育测量学是在本世纪二三十年代兴起、四五十年代定型、六七十年代迅速发展起来的一门教育学科。回顾与展望教育测量学的历史，可以使我们进一步了解和确认教育测量产生与发展的历史必然性和合理性。
作为教育测量的基本形式的考试和测验最早可以追朔到隋炀帝大业二年（公元606年）的科举制。科举制的特征是：逐级考试选拔人才；制度相当完备，考场规定相当严格；有一套命题、保密、封存、评卷的措施及违者的处罚规定。科举制在唐朝极盛，所用的方法有口试、贴经、墨义、策问、诗赋等五种。宋、元、明、清各朝基本沿袭了科举制，至清末，程式严格的八股文成了经义考试的主要形式，使考试成了僵死的东西，科举制由此走向衰败。
19世纪末20世纪初，实验心理学和心理测验的发展推动了教育测量的发展。1904年，被誉为教育测量之鼻祖的美国心理学家桑代克，出版了《心理与社会测量（Mental and Social Measurements）》一书，该书首次系统介绍了统计方法和编制测验的基本原理。教育测量的客观化、标准化问题受到了极大的重视，教育测量由此走上科学化的道路。1909年桑代克又用统计学上的“等距原理”编制了首批标准化的教育测检量表，如《书法量表》、《拼字量表》、《作文量表》等。从1909年到1915年，教育测验逐渐增多，并且从单独的学科测验扩展至综合测验的编制，即由几种主要学科的测验组合而成。同时，教育测验不再限于小学的学科测验，中等学校以上的各科测验大都一一编制出来。不仅学科测验有了发展，诊断测验和练习测验也陆续有所编制。当时在西方已兴起利用教育测量进行教育调查研究的风气。
辛亥革命后，教育测量学随着西方的科学技术被引进我国。1918年，俞子夷根据桑代克《书法量表》的编制程序，编制了《小学国文毛笔书法量表》，开我国教育测量编制的先河。1919年，廖世承和陈鹤琴在南京高等师范学校讲授测验，为我国高校设置测验课程之始。1922年，美国测验学专家麦柯尔（McCall,W.A. ）应中华教育改进社之邀来华讲学，并主持编制各种应用测验。至1925年前后，编成的中小学教育测验不下几十种，例如廖世承的《中学国文常识测验》、《中学文法测验》，陈鹤琴的《小学默读测验》、《小学文法测验》等。
1931年中国教育测验学会在南京成立，1932年《测验》杂志创刊。1935年，中央大学教育学院编制了《小学国语默读测验》、《小学算术测验》、《小学中年级常识测验》等。抗日战争爆发后，中央大学西迁重庆，艾伟组织与指导中央大学一些师生继续编制教育测验，如《中学语文理解力量表与汉字测验》等。
同时，我国一些从事教育测量研究和教学的学者，出版了有关专著和教材，如孟宪承的《测验之学理研究》、王征葵的《态度测验法》、沈有乾的《心理与测验》等。全国各高校教育学系和中等师范学校开设了教育测量或心理与教育测量的课程。
1949年到1978年之间的30年，由于受原苏联教育理论的影响，教育测量学遭到否定。
自从1978年党的十一届三中全会召开以后，教育和心理测量重新开始受到重视。张术祖在《教育研究》1979年第5 期发表了《论教育测量的重要性和教育测量的一些基本概念》，被认为是建议恢复教育测量学研究和教学的第一篇论文。1982年，在叶佩华等的主持下，翻译了桑代克、哈根合著的《心理与教育的测验和评价（Measurement and Evaluation in Psychology and Education）》（1977年版），这是自1979年以来的第一本有影响的教育测量译著。随后，教育测量学被列为高校教育系的必修课。
1988年，经中国教育学会批准，中国教育学会教育统计与测量研究会正式成立，由张厚粲任第一届理事长，叶佩华任名誉理事长。在研究会成立以后，多次举办高层次的讲习班。研究会的部分会员自1985年以来积极参加全国高考标准化改革实验，在全国高考命题标准化、施测标准化、评卷记分标准化、分数报告标准化等方面的策划和实践中作出了积极的贡献。
在上述这段时间，除教材以外，还出版了不少教育测量学方面的论著，如张厚粲等的《标准化考试简介》、桂诗春的《标准化考试的理论与实践》、张敏强等的《标准化考试》、郑日昌等的《教育测量学的基础》等等。这些论著的出版及高考标准化改革实验的成功，加上舆论的支持，在全国真正打开了宣传教育测量学、重视教育测量学的新局面。1988 年，我国正式加入国际教育成就评价协会（InternationalAssociation for Educational Assessment, IAEA）。可以说，1979年以来的20年中，我国的教育测量学的教学与研究工作者以优良的成绩，使教育测量学在教育科学领域中占据了重要的一席。
二、教育测量学基本理论与方法的评析
下面对20世纪主要的教育测量理论：经典测量理论与题目反应理论作出比较与评析。
（一）经典测量理论的优点与不足
经典测量理论经过几十年的发展，形成了以真分数理论作为其理论基础，并具有完善、可操作的对题目和测验进行统计分析的方法。
经典测量理论的优点在于：（1）以弱假设作为理论基础。这些弱假设条件容易被绝大多数测验数据资料所满足。所以，从实用的意义上说，其应用具有广泛性。（2）具有明了简单的统计分析方法，且这些统计分析方法都有数学上的实际意义，易于掌握和理解。（3 ）我国教育测量工作者对经典测量理论及方法有深刻的认识，其应用具有基础性。
其不足之处有：（1 ）经典测量理论的方法所求得的题目参数（如题目难度、题目区分度）会受到不同考生样本组能力水平的影响。所以，选取的考生样本不同，就有可能得出不同的题目难度和题目区分度，故在考生样本选取方面要做到非常精确有一定的困难。（2 ）在经典测量理论的条件下，题目参数与考生得分量是在不同的基础上分别求得的，所以无法建立考生得分与测验题目参数之间的函数关系，即考生能力的估计会由于测验的改变而改变。（3 ）经典测量理论中有两个重要的假设条件，即严格的平行测验和测验误差与真分数相关为零，这在实际操作中是难以做到的。
（二）经典测量理论的质量评估
测量工具决定着测量结果的准确性。所以，良好的测验也决定着测量结果的准确度，评价一份测验的优良性，主要有以下内容。
1.效度。它是指测验是否测出了所要测的东西。效度分为：（1 ）内容效度，即测验的题目与内容是否与教学内容与目的相适应。（2 ）构想效度，即测验的分数是否达到了某一预想的特质。（3 ）效标关联效度，用测验所得分数与标准测验所得的分数的相关来制定这次测验的效度，称之为效标关联效度，而标准测验则被称之为“效标”，在此起到预测作用。
2.信度。信度是反映测量的一致性程度的指标。计算信度的方法主要有：（1）再测信度，即对同一被试总体进行重复测量而得到的两组数据，以相关系数的大小表示一致性程度，相关系数高，则说明信度高。（2）复本信度，即建立两个在内容、质量各方面都相等的测验，并对实施后的两个测验分数求相关。（3）分半信度，把一个测验分为质量相等的两部分，求这两部分所得的分数的相关。要提高信度，可以加长测验。但信度是效度的必要条件，而不是充分条件，即信度低，效度不可能高，但信度高，效度不一定高。
3.区分度。区分度是测验题目对被试者能力高低的鉴别能力。不同的测验要求有不同的区分度指标，如高考对区分度的要求就比中学会考高。
4.难度。难度是指测验题目的难易程度。显然，难度大，通过率低；难度小，通过率高。难度指标的高低直接影响到区分度指标，因为难度太大或太小，都将使题目的鉴别能力受到影响。
（三）经典测量理论的评价工具
评价是把测验结果放在一定的参照标准上来评定其高低、优劣。评价工具是按参照标准编制出来的，评价工具也与物理测量的量具同理，须具备以下的要素。（1）参照点。这是计算的起点，参照点不同，测量结果就会因其所代表的意义不同而无法进行比较。（2）单位。这是测量的基本要求。教育测量也须有相应的单位，但教育测量的单位却往往不等距或等距不等值。比如，在同一数学测验上，两考生分别得100分与80分，另两考生分别得70分与50分，分数差相等但却不能认为差距相同。
教育测量的评价工具所参照的标准，主要有以下两种。（1 ）标准参照测验。标准参照测验是以被试对测验目标或内容的掌握程度作为标准。按照参照标准的不同，可将标准参照测验的分数分为两种：1 ）内容参照分数。这种分数是依据被试对某个确定的内容或技能的掌握和熟悉程度来表示的，因而，建立内容参照分数的前提是测验内容范围的确定；2）结果参照分数。用效标行为的标准来解释测验分数，称为结果参照分数。由此可知，标准参照测验是一种使用广泛的测验形式，如会考、课程考试等等。（2）常模参照测验。这是以全体考生在某一大规模测验中所得到的成绩分布为标准，衡量被试在这一测验上所得到的成绩在全体成绩分布中所处的地位。因而，将被试在这类测验上所得到的分数作单独解释是毫无意义的，只能将它放在被试团体中作比较。这个团体的分布则称为模团体，而对常模参照测验的测验分数作解释的参照则称为常模。
（四）题目反应理论的评析
题目反应理论是现代测量理论中最具代表性的一种。题目反应理论是建立在潜在特质理论基础之上的。题目反应理论认为，潜在特质指的是所要测的内在能力，定量地估计个体在每一种特质上的位置是心理测验的任务。但是，由于心理特质的潜在性，心理学家只能依据可观测变量来鉴别和定义这些特质，并希望能探明：哪些特质所起的作用是重要的，哪些特质对人的行为发展产生重大影响，等等。
题目反应理论的最大特点就是它找到了一条题目特征曲线（ItemCharactteristic Curve简称ICC），并且以多种数学表达式（或数学模型）来描述它和逼近它。题目特征曲线的数学模型一般都包含两个方面的参数：（1）对测验题目的特征进行刻画的题目参数；（2）对考生的特征进行刻画的潜在特质或称为能力参数。
从题目反应理论的特点看，它是建立在如下的假设之上：（1 ）一维性（考生的某一测验结果只取决于一种潜在特质或能力，其他能力的影响可忽略）；（2）局部独立（考生答题目时不受其他试题的影响）；（3）适合的数学模型（必须经过拟合性检验）。
题目反应理论的优点在于：（1 ）试题难易度的估计不因样本不同而不同，题目反应理论的题目参数估计是独立于考生样本组的。（2 ）考生能力的估计不因测验改变而改变。题目反应理论可以使考生能力发展水平的估计独立于所施测题目组，从而为对不同水平的考生实施题目不同的测验或设立自适应测验奠定了理论与方法基础。（3 ）测量误差的估计因考生程度不同而不同。利用计算得到的测验信息函数来估计测验标准误差，并以此作为区间估计，从而取代了经典测量理论中平行测验的信息概念。由于题目信息函数和测验信息函数与个人有关，测验标准误差就会因人而异，这就为准确地估计每个考生的能力水平提供了准确的信息。（4）为多种形式测验的实施提供了更为完整的理论与方法。在题目分析和估计考生能力的同时，可以得到题目信息函数和测验信息函数这两个统计量。有了这两个测验信息就为精确估计每个考生的能力水平，控制不同能力水平的考生的测量误差提供了标准。这也为自适应测验的实施提供了必要的实施条件。
题目反应理论的不足之处在于：（1 ）对数学模型与实测数据的拟合要求较高。（2 ）题目反应理论需要的一维性假设是对任何数学模型的共同假设，这是因为测验编制者都希望提高测验分数的可解释性。但到目前为止，尚没有一种能验证一维性假设的方法。
（五）经典测量理论与题目反应理论在题目分析上的评析
题目分析是在考试或测验进行后，对数据作统计分析处理的重要环节，由于依据的测量理论不同，则题目分析结果所提供的信息也不相同。一般来说，经典测量理论的题目分析主要计算题目难度、区分度以及绘制题目难度曲线；题目反应理论的题目分析主要计算题目难度、区分度、猜测系数以及绘制题目特征曲线。表面上看，二者之间的差别不大，但实际上依据不同理论所作的题目分析有着实质的差别。
1.经典测量理论的题目参数是依赖于样本而求得的，不同的考生样本组，将会得到不同的题目参数值。而题目反应理论的题目参数的求得，则与样本无关。
2.经典测量理论是以考生在试卷上通过的题目总数中总得分来计算成绩的。实际上测验题目有难有易，因而，考生在完成不同的题目时所需要的知识和能力并不相同。但经典测量理论却忽视了这一点，它不去判别考生在答每一道题目时所需要的能力大小。而题目反应理论却在估计题目参数的同时，也估计了考生的能力参数。它是综合了考生全卷答案的正误情况和题目的难度、区分度、猜测系数等参数后经过精确计算再作出对考生能力参数的估计。这样，对于完成了数量相同、但题目内容不同的考生，由于各题目的参数不同，就有可能得到不同的能力参数。
3.题目反应理论提供了测验信息函数和题目信息函数两个非常有用的概念，这在经典测量理论中是没有的。测验的目的之一就是希望获取考生水平的有关信息。题目的质量不同，所能提供的信息也不相同，因而，题目反应理论提出了信息函数这一客观指标，用以综合说明每道题目所提供的信息量。
4.对于主观性题目，经典测量理论也可以计算出题目的难度、区分度、绘出题目难度曲线，尽管信度不甚高，但仍能有效地做题目分析。而题目反应理论则到目前为止还未找到一种对主观性题目做题目分析的有效和可靠的方法。
5.经典测量理论与题目反应理论对于题目参数的估计和计算，尽管有很大区别，但在题目分析中，在一定的条件下仍然有联系。
在关于经典测量理论与题目反应理论的对比研究中，许多研究者都同意，题目反应理论在概念上比较严密，题目参数的定义不依赖于考生样本，对题目特征的刻画比经典测量理论更为合理、深刻。但是题目反应理论依赖于较强的假设，在应用上不易满足，同时有人认为：（1 ）题目反应理论的计算工作量太大，计算过程复杂；（2 ）题目反应理论需要的一维性假设不一定能得到满足。我们知道，迄今为止，我国的专业考试机构或考试管理机构一般都已配备有较好的计算设备，而且目前计算方法及计算程序都较为完备，可以说，已解决了计算工作量大、计算过程复杂的问题。至于某些科目的一维性假设不一定能得到满足的问题，我们可以设想把整个科目分解成若干个分测验，使每一个分测验能满足必须得到满足的假设，从而有利于应用题目反应理论进行题目分析。当然，这样做还可能引起另外一些问题，如各个分测验题目量的大小，分测验之间分数的合成等问题。但是我们相信，随着研究的逐步深入，这些问题最终都是可以解决的。
（六）测验等值的评析
1.测验等值的概念与条件。测验中的一项非常重要的技术方法是测验等值，测验等值是本世纪教育测量学发展中一个全新的概念。若考查相同心理特质的测验（或称相同能力或学力的测验）所获得的测验分数有一个统一的、可比的解释量表，以能使不同次的测验分数的解释不会随测验分数的不同而改变，就需要通过一定的技术方法把它们联系起来。而所采用的这一技术方法则称为测验等值。
测验等值包含两方面的内容：（1 ）把不同测验所得到的分数进行等值；（2）对测验题目的参数进行等值。分数等值与题目参数等值可认为是相对独立的两种内容，但实质上它们之间是有密切联系的。
并非任何测验都是可以等值的。首先，要进行等值的测验必须是测量同一心理特质的测验；其次，只有信度相等的测验才能等值。
2.测验等值理论与方法的依据。测验等值理论与方法是建立在以下假设基础上的：（1）公平性（Equity）。指的是如果两个或两个以上的测验的确是等值的，那么，无论以其中哪一个测验作为基础进行等值转换，都应该是一样的。（2）横跨群体的不变性（Invarance across groups）。因为测验等值是测验之间的客观存在的实际关系，所以，虽然测验等值的转换方程源于样本，但转换方程独立于考生组的性质和测时的具体情境。（3）对称性（Symmetry）。指的是被作为等值基础的测验，无论是选取测验X或测验Y，都不影响等值。（4 ）测验的一维性（Unidimensionality of the tests）。指的是被等值的测验都必须是测量同一维心理特质的。
3.测验等值的应用。在目前社会强烈呼吁改革高考“一考定终身”的情况下，测验等值更显其特殊的意义。测验等值理论为实行多次考试提供了可靠的理论依据，测验等值方法则为多次不同时间的考试分数提供了转换和比较的方法，特别是为测验考试计算机化提供了理论基础和可操作性的方法。显然，测验等值的应用和理论与方法的突破，将使测量产生一场革命。目前，TOEFL考试、GRE考试都采用了计算机化考试，这就是测验等值的具体应用。
测验等值的实施有其特定的等值设计，如单一组设计、共同参照测验设计等等。同样也有经典测量理论等值和题目反应理论等值的方法，有兴趣深入了解的读者可阅读有关专著。
三、正确应用教育测量学的理论与方法
从教育测量学的现状及发展趋势来看，其应用范围和功能地位正在日益扩大和提高。因而，测量成为人们关注的社会问题便不足为奇。在这里我们讨论的是如何正确使用教育测量学的理论与方法。
任何事物都有其两面性，任何一种工具都有其利弊。所以，以科学的态度正确地应用教育测量学，是每一位教育工作者的职责。
1.测验的选择要慎重。每一种测验都有其特定的目的、功能及适用范围。因而，确定测验时一定要慎重考虑，例如要弄清楚在什么场合应用常模参照测验，什么场合应用标准参照测验，不同的参照系的不同的统计分析指标等。不问目的随便套用测验，必将影响效果，也得不到应有的结果。
2.测验的实施过程要严格控制误差。任何测验实施的过程中，都要按照操作规定的要求进行，严格控制这一过程中可能出现的各种无关因素的干扰。要对测验的实施者进行培训，这样，才能把误差，特别是人为误差控制住，从而确保测验结果的可靠性。
3.正确解释和看待测验结果。（1 ）对测验分数的解释必须在教育测量学的有关理论指导下进行，即在解释分数时，不能只给出一个分数，在可能的情况下还应当给出可以比较的位置（排序），不同学科分数的相加，也要使之具有合理的可加性。（2 ）测验分数并不是存在于真空之中，分数的意义是和与分数相配合的信息群的完整性及广泛性成正比的，如个人文化修养、家庭情况、生理及健康状况等都会影响到个人的测验分数，因而，教学测验分数只能在一定程度上说明学生在学校学习中，在该学科上达到的水平。
四、教育测量学的现状及其发展趋势
近年来西方的教育测量运动方兴未艾，在理论上不断地趋于完善和丰富，在教育实践中的应用也日趋广泛和深入。目前教育测量的现状呈现如下特点——这些现状同时也昭示着未来一段时期内教育测量的发展趋势。
1.教育测量的地位进一步得到提高。由于社会的发展要求教育要深化改革，要求对教育改革成效作出正确的评价，这样就使得教育测量上升到相当的权威地位，人们对教育测量提供的资料也寄予了更大的希望，从而使教育测量产生更大的政策性督促作用。政策制定者们寻求着加强教育说服力的途径，由此对教育测量产生新的需求和期望。
2.教育测量的重心发生了变化。由于认知心理学和人工智能研究的发展，心理学家们开始关注个体信息加工系统的内部过程，教育领域亦受到很大影响。教育者们对教育测量产生新的期望，测量已被视作教学过程的一个不可或缺的部分，其不再局限于对学生未来成功与否的预测，而更主要的是用于诊断学生目前学习状况并更有效地激发学生争取更大进步。
3.教育测量的理论得到飞速的发展。从20年代发展起来的教育测量理论称之为经典测量，但由于其理论结构的局限性，使它的实际应用范围受到一定的限制。从60年代开始，在教育科研工作者的努力下，题目反应理论、潜在等级分析等现代测量理论的应用得以逐步扩展。题目反应理论为教育测量解决了一些经典测量理论无法解决的问题，并且为测验设计、测验误差的检定、测验等值、计算机化自适应性测验的设计与评分等问题的解决提供了有效的途径。
4.计算机技术的发展大大提高了测量的效率。几十年来，测量的发展及应用与电子技术的发展紧密相联。30年代后期，测验的机器计分开始出现，使得许多客观测验题能迅速计分，为测验效率的提高做出很大贡献。七八十年代，计算机的使用加快了测验的计分与报告的效率，并使测验题库得以建立，测验方式也多种多样。与此同时，随着相对廉价的微机的普及，计算机技术在测验中的功用就更为广泛和显著。更为令人叹服的进展在于计算机施测成为可能。
5.教育测量的结果更为受人关注。由于不同的测验会产生不同的结论，甚至相同的测验也会产生不同的结论，因此测验者对测验结果的解释日趋详尽、全面和谨慎，并尽量帮助公众正确理解测验数据。此外，人们不再仅仅关心分数，同时也关心教育测量的其他后果，比如对教师的影响。测验结果常常与教师的地位、威信等有直接的关系，如果处理不好，将会影响到教师对教育工作的兴趣和信心。