测量与测验在教育中的地位

wallance 2007-07-11

展开全文

第一节测量与测验在教育中的地位

    随着科学的发展，人们不仅使物理测量（如长度、重量的测量）越来越精确，而且也不断地尝试着对人的知识、能力、态度、思维、成就等心理特征进行测量。学校教育强调学生的综合素质，强调学生的个性特长，强调实事求是的因材施教，强调教育的过程与结果，都离不开对学生进行科学合理的测量评价。
    一般地说，教育就是体现当代人对未来人要求的一种活动。具体地说，教育是培养人的习惯、改变人的行为模式的活动。因此，教育中必然存在着三大问题：
    （1）期望受教育者发生何种变化并形成何种行为模式？
    （2）怎样促使和造成这种变化？
    （3）期望的变化是否达到及达到的程度如何？
这三大问题分别对应了完整教育活动的三个重要环节：
    （1）确立教育目标。
    （2）形成适当的教育过程。
    （3）评价教育结果。
    教育目标、教育过程、教育评价三者之间的关系是相互的。由此，我们可以明显地看到测量、测验在教育中的地位与作用。

第二节测量

（一）测量的定义

测量——按照一定的法则，给事物及其属性指派数字。

从中，可以看到测量的三个要素：法则、事务及其属性、数字

1、法则任何测量，总是基于一定的理论假设。用天平测物体重量，依据杠杆原理；用温度计测物体温度，依据热胀冷缩定律。教育测量也要依据一定的理论假设。所谓法则，就是进行测量时，必须遵循的一些先于测量的假设、原理、原则。具体地说，法则就是如何对事物指派数字的一种指导、方法或假设。如，现有人员集合A{a1,a2,……ai,……an}，其中有男性，也有女性。看规定：男性，分派数字1；女性，分派数字0。则将构成新的集合B{0,1}，而且，集合A的每个成员分别对应于集合B的某一个特定的数字。这里，“男性为1，女性为0”就是一种法则，它在事物属性和数字之间建立了一种对应关系。就教育测量而言，人们使用测验去测量学生的学业表现，也就是以测验作为法则（包括对测验内容、步骤、评分标准等若干规定），建立一种学生学业表现与数的系统的对应关系。当然，这种对应关系的好坏，就涉及到测验的可靠性与有效性问题。

当测量的基本条件相同时，使用不同的法则，就会产生不同的测量效果。使用好的法则，可得到正确、可靠的测量结果，使用差的法则，可能会得到错误、无效的测量结果。法则的好坏，一方面取决于制定法则的程序，另一方面依赖于所想测量的事物属性本身是否易于建立法则和便于操作法则。

2、事物及其属性在长度、时间、重量等物理测量中，对测量结果的描述几乎是没有争议的。因为人们对长度、时间、重量等属性的认识是明确的、一致的，其操作方法或法则也已被人们所接受，并且已经有一些国际通用的量尺来表现这些结果。所以，长度、时间、重量等测量都是直接测量。

在教育测量中，测量的对象诸如知识、技能、能力、习惯、态度、兴趣、个性、品德等，都必须事先明确规定。如测量学生的阅读能力，首先必须明确什么是阅读？即所想测量的“阅读”指的是什么？是默读还是朗读？是略读还是精读？所以，测量阅读能力，应先给“阅读”下一个可测量或可观察的定义，用一个特定的具体的行为动词使得“阅读”测量可操作。如此，按操作定义明确测量目标，编制测题，并以此测题引起学生的行为反应，进而根据学生的反应推论学生的阅读能力。因此，教育测量是一种间接测量。如：对学生阅读能力的测量结果，虽然反映了学生阅读能力的高低，但它毕竟不是阅读能力本身。当然，物理测量中也会采用间接测量的方法。如温度的测量，就是通过温度计与水银柱的升降来确定温度的高低。

3、数字数字在未被用来表示事物的属性以前，它仅仅是一个符号。作为符号，它本身并没有量的的意义，当数字被合理地用来描述事物的属性时，并给予了一定的单位和参照点以后，才具有量的意义，即从数字变成数。数作为一个系统，具有以下特性：

区分性即1就是1，1不同于2，用1和2分别表示的事物是不相同的两个事物。每一个数都是独特的，没有任何一个别的数与它完全相同。当然，用同一个数表示的事物的每一个体总是相同的。

等级性即若干个数之间按其大小所形成的次序关系。如1<2<3，若用数的等级性描述事物，那幺，事物之间必有位次序列可循。

等距性按大小顺序排列的数，若相邻两数之差彼此相等，则这些数具有等距性。

可加性某数与它数之和一定产生出另一个独特的数，这是对数进行运算的基础。由于数的可加性，使得人们能对数进行加、减、乘、除的运算。不过，数的可加性隐含了一个重要的前提条件：数的同质性。如果能按照一定的法则，对被描述的事物属性指派数字或数，或者说使事物属性具有类似数的性质或形式，那幺，就能用由数的运算所得到的结果来描述事物。当然，在实际测量中，由于测量的需要及所测量事物属性的不同，有时并不需要使数的各种特性同时具备。

（二）测量量表

测量的本质是按照法则给事物指派数字，数字要有意义必须加以数量化。数量化的价值要在一个具有单位和参照点的连续体上表现出来。测量时，通常把体现测量规则、具有单位与参照点的连续体称为量表。

单位是计量事物的标准量的名称。没有单位，数量的多少或大小就无法表示。一方面，单位要有确定的意义，即同一单位在不同的人看来，要有同一意义，另一方面，单位的距离要等值。如长度，lA=8.2m, lB=7.0m, lC=6.2m, lD=5.0m, △lAB=1.2m, △lCD=1.2m, △lAB=△lCD, 即A、B长度的差异等于C、D长度的差异。

为保证单位的等值性，必须用可以观测的事物变化来定义单位。如，标准长度单位以“氮86在真空中所发射的橙色光波波长的1650763.73倍来定义。这种定义的可观测性和稳定性保证了单位的等值。在教育测量中，人们常常对同一类型的测验项目赋予同样的分值。由于各项目的难度不同，被试完成这些项目所付出的努力也不同，赋予每一项目同样分数，就可能造成分数的单位不等。为此，欲使测验分数数量化，人们往往把原始测验分数转换成有意义的导出分数。如以百分位为单位的百分等级分数，以标准差为单位的标准分数。

参照点是事物计量的起点。参照点不同，也没有直接比较的可能。如摄氏温度与华氏温度就不能直接比较。参照点可分为绝对参照点与人为参照点，绝对“零点”的“0” 表示没有或不存在。如一个人的收入为0，表示这个人没有收入；一个事物的重量为0，表示该事物没有重量。人为参照点“0”不表示“没有”或“不存在”，而表示为一种状态或水平。如以海洋面为测量陆地高度的起点，以冰点为测量温度的起点。学生的学科成绩考试为0分，表示该生的成绩水平为0，并不表示他没有考试成绩或没有任何学科知识。

教育测量中的参照点也说是人为参照点。它只能表示事物数量差异的大小，而不能表示相互间的倍数关系。如A生测验成绩20分，B生测验成绩40分，可以说B生比A生高20分，而不能说B生成绩是A生成绩的两倍，因为，若把参照点下移50分，则A生为70分，B生为90分，B生仍然比A生高20分，但B生的成绩显然不是A生成绩的两倍。

（三）四种测量量表

由于事物属性不同，测量时依据的法则不同，以致使用数的属性描述事物属性所达到的程序也不同，由此带来了不同的测量水平，每一种测量水平都产生出与其相应的测量量表:

称名量表称名测量是最简单的测量形式——分类：按照事物的某种属性对其进行平行的分组，将新观察的个体区分为不同的类型，反映了事物之间的类别差，而对各类之间的其它差别则没有反映。这种分类是类别之间平等的并列关系，并无优劣或大小之别，各类别之间的顺序是可以改变的，具有“等于”和“不等于”的数学特性。如果用数字来表示类别的话，那幺，属于同一类的事物用同一个数字表示，属于另一类的事物用另一个数字来表示。我们把只有相同与不同特性、并无数量大小含2的数字所表示的量表叫作称名量表。在这里，用来描述事物的数字仅仅是代表事物的符号，并没有严格的数字意义。统计处理的对象，通常不是用来描述事物的数字本身，而是归属于每一类中个体的数目（频数）。适用的统计方法有频数、实数、比例（相对频数）、相关、检验。

在对事物进行分类时，必须符合穷尽和互斥的要求。类别穷尽是指在所作的全部分类中，应保证每个元素或个体都能归属于某一类别；类别互斥是指每个元素或个体只能归属于一个类别。

等级量表具有区分性、等级性而无等距性、等比性的数字所表示的量表称为等级量表或顺序量表。它不仅可以将事物分成不同的类别，而且还可确定这些类别的优劣或顺序。即不仅可以反映类别差，而且可以反映次序差。如产品等级将产品分为一等品、二等品、三等品、次品等；考试成绩可分为优、良、中、及格、不及格等；某人对某事物的态度有非常同意、同意、中立、不同意、非常不同意等。显然，等级量表对事物的测量比称名量表精确一些，但它也只是反映了类别之间的顺序，而不能反映类别之间的精确差值。因此，等级量表具有“大于”和“小于”的数字特性。该量表数字所运用的统计方法有中位数、存分位数、等级相关、肯德尔和谐系数、符号检验、秩次检验及称名量表所能适用的统计方法等。

等距量表有相等单位和人为参照点的量表叫等距量表，该量表上的数字不仅具有区分性、等级性、还具有等距性。即它不仅能将事物区分为不同类型并排序，而且能准确地指出类别之间的差距是多少。如考试成绩80分与90分之间差10分，温度20℃与25℃之间差5℃。既然能确定类别之间的差距，当然可以比较异同与顺序，并可进行加减运算。该量表数字能适用的统计方法有算术平均数、标准差、积差相关、Z、T、F检验等及称名量表、等级量表所适用的统计方法。

等比量表有相等单位和绝对零点的量表叫等比量表。该量表的数字不仅具有区分性、等级性、等距性，而且具有等比性。等距量表上的“0”表示一种状态、水平，等比量表上的“0”表示没有、不存在。因此，等比量表上的数字不仅可以比较大小、计算差值，还可计算数字之间的比值，即进行加、减、乘、除运算。它所适用的统计方法，除了等距量表所适用的统计方法外，还可计算几何平均数、差异系数等。等比量表，是测量的最高水平。

上述四种量表对事物的测量层次是由低级到高级，由粗略到精确逐步递增的。高层次量表兼容低层次量表所具有的全部特性，而且，可以将高层次量表的测量结果转化为低层次量表的测量结果。如将考试成绩的百分制分数转化为等级分制。在统计分析中，一般要求测量的层次越高越好，因而高层次量表包含了更多的数学特性。

教育测量中，虽然测验分数严格意义上属于等级、顺序量表，但是测量学家还是把测验分数作为等距量表来处理。这是因为：第一，可以将总体呈正态的测验分数转换成单位相等的标准分数；第二，测验技术的提高与完善，可使本来属于等级量表的分数作为等距量表来处理所产生的误差减少到最低程度，而且，把测验分数当作等距量表来处理所得到的结果确实有重要的意义。

第三节测验

（一）测验的定义：

所谓测验，就是对学生行为样组的客观的标准化的测量。行为样组：测验是引起被试行为的工具，行为就是被试对测题所作的反应。测验并不能直接测量到被试所拥有的某一特性，只能通过被试对测题的反应来推断他的特性。一种特性总是与一组行为相关联，仅凭一次表现来推断某种特性是不可取的。所以，正确可靠地推断出欲测量的特性所借助的具有代表性的一组行为就称为行为样组。

客观：是指评分的客观。作为测量工具的测验本身的客观性，即是否可靠有效，是否符合被试特点，以及对测验本身评价的客观性。

标准化：就是严格控制误差的过程。因为测验是个系统程序，每个环节都有出现误差的可能。

任何特定的测验都是某方面特征总体内的一个样组，一个测验只包含一个样组，这就带来了两个问题。即

测验的效度——样组的代表性问题，是否测量了所要测量的特性?

测验的信度——来自同一测题总体的不同行为样组的测量结果的一致性与连续性问题。

（二）测验的分类：

①按测验的参照标准，测验可分为常模参照测验和准则参照测验。常模参照测验：所谓常模就是测验团体的平均水平。常模参照测验以鉴别、区分学生为目的，依据反映个别差异的实际分数分布对测验结果进行解释。个人成绩以个体在团体内所处的相对位置来说明。因此，个人成绩不仅依赖于个人努力，还取决于团体内他人的表现。常模参照测验的基本假设是学生成绩服从正态分布。用在测验上的常模参照量表有标准分数，百分位分数。

准则参照测验：所谓准则，就是独立于测验的一套外在的预先规定的某种标准。准则参照测验以学生对各项既定的教学目标完成的数量或百分比来判断学生的成绩好坏。准则参照测验的理论依据是学生的学习成绩应以学生的数量和程度来表示。而学习的数量与程度只有与预先规定的标准比较才具有确定的意义。

②按照测验的功用，测验可分为成就测验与预测测验，难度测验与速度测验，普通测验与诊断测验。成就测验——在于考查学生目前在某方面的成绩，测量学生已经会什么，达到何种程度，往往依据学生的作业样本选择测验材料。

预测测验——用于推测学生未来在某方面的成功可能性，测量学生将来会做什么，一般依据作出分析的结果来选择测验材料。

难度测验——在于测量学生的最高能力作为。

速度测验——在于测量学生的作业快慢。

普通测验——在于考查学生个体或团体在某方面的掌握程度。

诊断测验——在于进一步诊断学生在某方面的特殊优点与缺点，特别是调查造成学生学习障碍或困难的深层次原因，诸如社会、家庭、学生的心理因素等。

③按照测验材料，测验可分为语言或文字测验及非文字或操作性测验。

④按照测验的人数，测验可分为个别测验与团体测验。

⑤按照测验项目的特点，测验可分为构造性测验与投射性测验。构造性测验——项目要求很明确，项目中体现的测验目的与实际测验目的一致，被试一看项目就知道要测什么及被要求做什么。

投射性测验——项目意图不明确，问题较模糊，所要测量的特性不能明显地从项目中看出来。即测验的目的不是直接实现的，而是通过一些别的途径“投射”实现的。

⑥按照测验的内容或测量的对象，测验可分为人格测验与认知测验。人格测验——考察受测者表现在人格个性中与动因因素有关的心理特点，诸如需要、动机、兴趣、爱好、情绪、态度等的测量工具。人格测验在描述人的品质、类型、内心事件或预测人的行为上也是一种有效的工具。因此，它不仅能够提高教育工作的针对性与实效性，而且具有极大的社会效益。

认知测验——考察受测者表现在认知方面，特别是与能力因素有关的心理特点的测量工具。根据认知特点的相对稳定性，认知测验又可分为素质测验、智力测验、能力倾向测验和知识测验。

素质测验——素质是指人的一些与生俱来的解剖生理特点，如反应时，视觉辨别力等，是最稳定的特点。

智力测验——考察受测者较稳定地表现在认知能力方面的心理特质的测验，特别是那些在外界环境影响下不会轻易改变的认知特点。如观察力、注意力、记忆力、理解力等。

能力倾向测验——介于智力测验与知识测验之间的测验。既反映不易受环境影响的特点，又反映容易受到教育训练影响的知识技能；既反映现有的水平，又能对较长期的发展做出预测。

知识测验——考察受测者已有知识技能水平的测验，特别是受测者对一定知识内容的掌握程度。

在人的认知结构中，智力处于最深层，对几乎所有方面的表现都会发生影响，最不易受到环境因素的影响。知识反映了最表层的能力特点，专门的知识最易受到环境的影响。能力或能力倾向反映了中层的认知特点，它受到环境的影响但又不象知识那样轻易改变，能力或能力倾向影响到某一些方面的专业知识技术水平，但又不象智力那样影响到几乎所有的方面。

a).智力测验考察那些表现于各种活动之中的能力特点，知识测验考察那些表现于某一具体活动中的能力特点，能力倾向测验考察那些表现在某一类活动中的能力特点。

b).智力测验和能力倾向测验主要考察那些在未经控制甚至是未知条件下的学习结果，而知识测验主要考察那些已知和受控条件下的学习结果。

c).智力测验和能力倾向测验通常被用于预测目的，在一项学习或训练之前预测受测者在这一受控过程之后的表现。知识测验通常被用于在一个学习和训练之后总结这一受控过程的结果。前者关心受测者“将来做什么?”，后者关心受测者“现在能做什么?”

d).智力测验和能力倾向测验通常基于效标关联效度之上，而知识测验通常基于内容效度之上。

当然，从智力到知识，从深层心理特质到浅层心理特质，并不存在明确的界线。作出这种划分也只具有相对的意义。事实上，智力测验，能力倾向测验也常常包括一些专门的知识，而知识测验也会包含一些反映智力的内容、牵涉到一些范围较广的能力特点。在许多情况下，知识测验也具有预测意义，特别是受测者在基本相同的环境下接受教育的情况。

（三）对测验的认识

1、测验在学校教育中是一种测量工具，是教育评价的主要手段之一。有测验的教育是正常的教育。

2、测验是一把古今中外概莫除外的双刃剑，使得好，可以促使教育积极发展；使得不好，也会反过来伤害教育自身。测验的根本问题是测什么，怎么测。

3、有测验的教育走到极端，就变成了“应试教育”，高考的某些问题和应付高考的那些不良做法，一直影响到了小学、幼儿园，甚至胎教。素质教育是其在新的时代要求下进一步的改革和积极发展。这是我们在批评“应试教育”时，应当持有的基本看法。改革之所以称改革，是因为它反映的是主体从量变到质变的有更多连续性的自我扬弃和更新。世界是普遍联系的，历史也是前后延续的，即使是革命，也是从其质变的意义上而言的。从广义上看，任何革命都不可能“彻底”，教育更是如此。素质教育只有踏在近十几年存在着“应试教育” 严重情况的有考试的教育的基础上，才能实现其有现实意义的改革，决非另起炉灶。

（四）测验的改革

要使测验在以德育为核心，以创新精神和实践能力为重点的素质教育中发挥更大的作用，学校教育测验改革应实现下列几方面的转变。

①从注重习得能力转向注重学习能力；

②从注重统一性答案转向注重多样性答案；

③从注重结果转向注重过程；

④从注重过去、现在转向注重现在、未来；

⑤从注重单一学科转向注重多学科、跨学科、综合学科；

⑥从注重认知转向注重认知、情感并重。

资料与说明

1、《教育测量》王孝玲编著华东师大出版社 1989.5

2、《教育统计、测量与评价》戴忠恒著中国科学技术出版社 1990.9

3、《教育测量学》张敏强著人民教育出版社 1997