第七章-学习结果的测量与评价（word版）

天下无双 2023-09-30 发布于山西

展开全文

一、学习结果的测量与概述

（一）基本概念

1.测量

测量就是依据一定的法则使用量具对事物的特征进行定量描述的过程。

教学测量，就是借助于一定的心理量表和操作，对学生的学习成绩进行探察，并以一定的数量来表示的考核办法。

参照点是度量的起点，是测量的基本要素之一。测量的参照点不同，则测量的结果就不能相互比较。测量的另一基本要素是单位，如长度是15米，其中“米”就是单位。没有单位的数量含义是不明确的。

2.测验

测验是一种标准化的测量，这种标准化体现在测验内容的标准化、施测条件的标准化、评分细则的标准化和分数解释的标准化等。一个测验即是一种测量工具或测量量表。

3.评价

在教育领域，评价是指从多种角度以多种方法去评估一个人的知识或能力，以作为作业教学或辅导效果的证明或依据。评价是一个更为一般化的术语，它包括获取与学生学业有关信息的所有方法(观察、表现或项目评价、纸笔测验)，也包括对学生学业进行的价值判断过程。测量是对学习结果的客观描述，评价是对客观结果的主观判断与解释。测量得到的结果，只有通过评价，才能判断这种客观描述的实际意义，才有实际价值。综上，学习测评是指采用测量手段收集对学生某种属性的定量描述资料，并作出评价的过程。

（二）测量与评价的功能

·1.促进教师的教学

(1)了解学生的起点行为:摸清学生的学习和发展状况，是因材施教的前提。

(2)作为改进教学的参考:在教学测量与评价的过程中，教师可以明了自己在教学上的缺失。

(3)确保教学目标的到达:教学测量与评价的最终目的在于确保教学目标的达到。(4)评定学生的学习成果。

●2.促进学生的学习

(1)诊断学习的作用:①诊断学生的学习。对测量结果的分析，可以让教师了解学生的学习类型。如果该测量过程是经过特殊的设计，更能进一步提供给教师诊断学生在认知结构的哪些地方有缺失信息。②作为补救教学的依据，有针对性地提出符合个别需要的补救教学的策略与措施，以达到因材施教的目的。

(2)帮助学习的作用:①激励学生的学习动机。②帮助学生记忆和促进迁移。@促进学生自我评价。

3.促进管理水平的提高

(1)对教师的管理

测量与评价在对教师的管理中所起的作用具体体现在这几个方面:一是教师的资格评定，即教师的专业知识水平是否达到基本要求，专业知识包括文化知识和教育心理学方面的知识;二是教师的教学艺术水平的评定，即对教师的教学能力进行评定;三是教师的管理水平的评定，即对教师在学生班级管理方面的能力进行评定;四是教师的个性评定。其中教师的资格和教学艺术水平的评定是其核心内容。(2)对管理工作的促进

教育测量与评价对管理工作的促进主要体现在这几个方面:一是导向功能。教育测量与评价是根据教育目标进行的，它通过对现状与目标之间的差距进行判断，能有效地促进被测量与评价的对象不断接近预定的目标。因此，通过评价目标与指标体系的引导，可以为学校指明办学的方向，为教师与学生指明教与学的目标。二是监督检查功能。利用教育测量与评价，可以全面地掌握教育的各种情况，及时地发现问题、解决问题，对教学任务完成的数量与质量进行控制，为促进、提高教育活动的有效性提供科学的依据。

（三）测量与评价的主要类型

1.按照测量与评价时机分为:形成性评价、总结性评价

●形成性评价（过程性评价）

形成性评价是在某项教学活动中，为了更好地达到教学目标、取得最佳教学效果而不断进行的评价，它能用来及时了解某阶段教学的效果和学生学习的进展情况以及存在的问题，因而可据此及时调整和改进教学活动。它相当于学习教学中的课后检查和单元考查。

总结性评价（终结性评价、结果性评价）

总结性评价，一般是在教学活动告一段落后，为了解教学活动的最终效果而进行的评价。相当于学校教学中的期末考试。一般是在一个完整的教学过程结束后实施的总体评价。总结性评价旨在了解学生达到最终教学目标的情况，检查教学的有效性，以便为教学效果做出客观的评价。

2.按照测量与评价所参照的标准分为：常模参照评价、标准参照评价

·常模参照评价（相对性评价）

常模参照评价是将被试者水平与常模相比较，以评价被试者在团体中的相对地位的一种测量与评价类型。它是以个体测量的结果与参照团体(如班级、年级)的测量结果的平均水平(也称常模)相比较来确定其等级，又称相对评价。

标准参照评价（绝对性评价）

标准参照评价是将被试者水平与绝对标准相比较，以评价被试者有无达到该标准为目的，也称为目标参照测量与评价。教师采用这种评价的实质就是评价个体是否达到了教学目标，以及达到的程度。标准参照测验采用绝对标准的观点，又称绝对评价。

3.按照测量与评价对被试行为表现的要求分为:最佳行为评价、典型行为评价

●最佳行为评价

最佳行为评价是以测量被试者的最佳行为表现为目的的。凡是以能力的高低作为评价基础的，都属于最佳行为测量与评价。学校教学后的考试与升学考试，在性质上都属于最佳行为测量。

●典型行为评价

典型行为评价的目的不在于测量与评价被试者能力的高低，而是测量与评价其是否具备某种(或某些)典型行为。换言之，典型行为测量与评价所关心的不是被试者能不能尽其所能地表现出其最佳水平，而是要求被试者按通常的习惯方式作出反应(即典型行为)。如态度、情感、人格、兴趣测量等等，都属于典型行为测量。它所关心的不是学生能不能做好的问题，而是要看他在某些方面愿不愿意做的问题。

4.按照测量与评价的功能分为:描述性评价与诊断性评价、成就测验与预测测验、难度测验与速度测验

·描述性评价与诊断性评价

描述性评价是指通过测量来评价某一特定群体或个体在某一心理特质上的一般状况。诊断性评价主要是针对学习有特殊表现(如学习闲难》的学生讲行评价，找出学生在学习过程中所遇到的问题。这类评价多半是在形成性评价之后实施。它的目的是对个人的问题行为及其原因进行诊断。

●成就测验与预测测验

成就测验的目的是测量并评价个人在某一领域已经达到的实际成就。

预测测验的目的在于测量并评价个人在未来某一方面获得成功的可能性大小。比如，学校的期末考试、现行的高中会考等，都属于成就测验。

·难度测验与速度测验

难度测验的功能在于测量并评价个人能够达到的最高水平，这类测验常包含各种不同难度的题目，由易到难排列，其中有一些极难的题目，几乎所有被使者都回答不了，但作答时间较为充裕，使每个被试者都有机会做所有的题目，并在规定时间内做宗所有会的题目，因此能测量到被试者的最高能力。

速度测验的功能在于测量并评价个人解决问题的最快速度。速度测验的题目较为容易，一般没有超出被试者能力水平范围的题，但数量较多，且时限较短，几乎每个被试者都不能做完所有题目。在纯粹的速测验中，分数完全依赖于被试者的反应速度。

5.按照测量与评价的对象分为:智力测验、成就测验、能力测验、人格测验

（1）智力测验

智力测验目的在于测量并评价个人智力水平的高低。国内外用于智力测量与评价比较著名的智力测验有“斯坦福一比纳量表""韦克斯勒智力量表""瑞文推理测验”等。

（2）成就测验

成就测验目的在于测量并评价个人在接受教育后的学业成就，因此也常称为学业成就测量与评价。它有两种类型;一是学科成就测量与评价，测量受教育者在某一科目上的学习成就;二是综合成就测量与评价，测量受教育者在各学科上的综合学业成就。

（3）能力测验

能力测验目的在于测量并评价个人潜在的才能，预测个人的能力发展倾向。能力倾向测量与评价一般可分为两种:一种是一般能力倾向测量与评价，测量个人多方面的潜能。另一种是特殊能力倾向测量与评价，测量个人的特殊潜在能力，如音乐能力倾向测验、机械能力倾向测验等。

●（4）人格测验

人格测量与评价也称为个性测量与评价，其目的在于测量个性中诸如兴趣、态度、动机、气质、性格等方面的心理特征。人格测量与评价主要有两类:一是自陈人格问卷，比较著名的有“明尼苏达多相人格调查表(MMPI)“卡特尔16PF测验”艾森克人格问卷(EPQ)”等。另一类是投射测验，如“罗夏克墨迹测验””主题统觉测验”等。

（四）测验分析的基本技术

1.信度

信度的定义

信度是指在不同时间，使用同一测验，或者使用两个不同项目的等值测验，抑或在其他不同的测试条件下，对同一组被试者实施两次或多次测试所得分数的一致性。

测验信度表示测验分数中个体差异可归因于所测特质中"真实”差异的程度，以及随机误差的程度。在教育心理学中常用的信匪有重测信应、复本信度，内部一致性信和评分者信度等。一船而言，测验信度越高越好、

·重测信度

重测信度又称稳定性系数。它的计算方法采用重测法，即使用同一测验，在同样条件下对同一组受测者前后旅测两次，求两次得分间的相关系数。最适宜的时距随测验的日的、性质和被试特点而异，一般是两周四周较宜，(间隔时间最好不超过六个月，

，复本信度

复本信匪又称等值性系数，它是以两个等值但顺目不同的测验(复本)来测量同一群体，然后求得被试在两个测验上得分的相关系数，这个相关系数就代表了复本信度的高低。如果两个等值测验几乎是在同一时间内施测的，相关系数反映的才是不同等值测验之间的关系，而不掺有时间的影响。如果两个复本的施测相隔一段时间，则称重测复本信度或稳定与等值系数。

，内部一致性信度

内部一致性信度系数主要反映的是题目之间的关系，表示测验能够测量相网内容或特质的程度。

①分半信度。分半信度是采用分半法估计所得的信度系数。这种方法估计信度系数只需一种测验形式，实施一次测验。通常是在测验实施后将测验按项目编号的奇数，偶数分为等值的两半，并分别计算每位受测者在两半测脸上的得分，求出这两半分数的相关系数。分半信息实际上反映的只有两半测验项目之间的相关系数，由于在其他条件相同的情况下，测验越长，信度越高，因而分半法经常会低估信度，必须通过一些公式去加以修正，借以估计整个测验的信度。

同质性信度，同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，其测验为同质的。相反，即使所有顺目看起来好像测量同一特质，但相关很低成为负相关时，其测验为异质的。此外，对于一些复杂的、异质的心理学变量，采用单一的同质性测脸是不行的，因而常常采用若干个相对异质的分测验，并使每个分测验内部具有同质性，这样每个分测验就能用来预测异质效标的某一方面。

，评分者信度

评分者信度用于测量不同评分者之间所产生的误差。为了衡量评分者之间的信度高低，可随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根烟每份测验卷的两个分数计算相关，即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上，才认为评分是客观的。当多个评分者评定多个对象，并以等级法记分时，可采用特定公式去评估评分者信度。

2.效度

效度的定义

效度是给一个侧验所测量的结果，在多大程度上与预期的目的相吻合，或者表示一个侧验所测量到的东西与该测验所要求测量的东西的相符程度。选用测验时，必须首先考虑的质量给标是效度。效度验证是指为了评价一个测验分数的解释是否有效，而多方面多角度地收集证据的过程。效庭凭证的来源主要有三个方面:@来自测验内容的证据;02来自预侧行为的证据;0来自内部结构的证据。

3.区分度

区分度的定义

项目区分度就是项目区别被试者水平能力的量度。

4.难度

难度的定义

难度一般是指测验项目的难易程度，测验项目的难度，就是被试者完成项目作答任务所遇到的困难程度，一般以全体被试者在该题上的得分率为指标。

三、教师自编测验的技术

（一）教师自编测验的含义与特点

1.教师自编测验的含义

教师自编测验是指教师根据具体的教学目标、教材内容和测验目的自己编制的测验，是为特定的数学服务的。

2.教师自编测验的特点

教师自编测验的特点有以下几点。

(1)测验由教师本人，或使用者恨猖不同的目的或时间来编制。

(2)对不同的被测者，可以有不同的测题，时间需制和记分于段比较灵活。(3)测验规模限于校内或班级，测脑的适用范围较小。(4)以教师本人的经验来估计测验的可靠、有效和实用。

（二）教师自编测验的步骤制定测验编制计划

1.确定测验的目标

(1)认知领域的教学目标，依烟认知能力发展的顺序和学习的复杂程度来分，认知领域的目标依次分为六个层次:知识、理解、应用、分析、综合、评价。

(2)情感领域的教学目标。情感领域的教学目标是指有关态度、兴趣、理想、欣赏和适应方式等情感能力的学习结果，该领域的教学目标由简单的，具体的、普遍性小的行为开始，逐渐发展到较复杂，较抽象、较营遍性的行为，依次可以分成五个层次:接收、反应、评价、重组、内化。

(3)动作技能领域的数学目标，动作技能领域的数学目标是招属于动作和技能方面的学习行为。依运动作技能的发展层面来看，由简单到复杂的行为，依次可以分成六个层次:感知、准备、模仿、自动化、复杂反应、创作。

2.设计双向细目表

双向细目表指的是一个测量的内容材料和行为技能所构成的表格。它能帮助成就测量工具的编制者决定应该选择哪排方面的题目以及备类型题目应占的比例，考试自题双向细目表是一种考查目标(能力)和考查内容之间的关联表。

制作双向细目表时，试卷中拟对学生进行考核的"考核知识点须按章次进行编排;双向围目表中考核知识点的个数须与试卷中涉及的知识点个数相一致。双向细目表中的能力层次采用“识记~理解"应用一分析”综合”评价”等作目标分类，体现了对学生从最简单的,基本的刺复杂的，夏版的认知能力的考核。

3.选定测放的题型

试题的类型有很多种，一般来说，可以分成两大类，定内反应型试题(有观题)和自由反应型试题(主观题)，定向反应型试题主要有:填空、判断、选择(单选、多选)匹配、排列、分类等;自由反应型试题主要有:简答、论述、计算、证明、名词解释，作文等，两类题型的功能不同。

4.编制试题的一般原则

编制试题的一般原则有以下几点:

(1)试题题材均匀，欲测内容具有代表性。

(2)试题的权述力求简明扼要，题意明确。

(3)各个试题查彼此独立，要避免含有暗示答案的线素。

(4)试题直有公认的正确答案或相对较性的答案。

(5)试题中某些错误，虽不影响答案的选择，也应避免。

(6)凡具有争议性的试题，应注明命题

（7）若要测定学生的高层次认知能力，则试题不一定有固定答案。

（8）试题的叙述要重新组织，避免照抄课文或教材。

(9)试题应重视重要概念或原理的理解与应用，避免考核琐碎知识的记忆。

(10)避免使用与测验无关的假述，增加作答难度。

(11)食题不要超出单元教学的评价目标。

(12)提早命题，预留时间进行试题审查成修正。

(13)多准备一些试题，以备不时之需。

5.试题与测验的审查

（1）逻辑的审查

以逻辑的方法审查测验试题，主要是申查测验试题是否具有一致性和适当性，以确保测验试酸机能测量到所要测量的教学目标。

（2）实证的审查

实证的申查是指通过对获得的测试数据进行量化分析，以判定试题品质的好坏。实证的审查主要包括试题的难度和区分度分析，以及教学敏感度分析。

（三）常见题型的编制技术

1.选择题

*选择题的结构

每个选择题都包括一个题干和一组选项。题干通常是一个疑问句或不完整的陈述句，选项通常有四个，其中只有一个正确答案或最体答案，其他几个选项都为干扰项，对那些不能确定哪个选项是正确答案的学生来说，它们的主要作用就是干扰或透答，所以也称为诱答项。

*选择题的编制原则

(1)题干的编制。题干应该意义完整，目明确地界定问题;题干的用词整前后一致，要适合学生阅读能力水平;题于中血尽量避免使用否定式权述;避免题目与题目之间相互提供作答线索;避免以前一题答案作为下一题的基础。

(2)选项的编制，每个选项之间应彼此互斥:诱答必须具备似真性，或备选项之间要有同质性;避免便正确答案显得特别长;如果所有的选项都有共同的文字，应该把文字移到题干上; 要避免选项编号与选项内容框混滑;尽量避免使用"以上都是"或"以上都不是"的答案

(3)选项的林列，正确选项应随机出现在各个选项位置上;各个答案之间应尽量依据逻辑顺序排列:选项的排列格式要一致、整齐。

诱答项的编写

编拟诱答项的原则就是要"似是而丰"，让每一个诱答项具有似真性，这样一知半解的学生就不容易以排除法来猜中答案。此外，教师可以依据下列方向来构思诱答项：

(1)以错误的方式使用专门术语。

(2)由作业或口头问答中找出学生常见的错误概念。

(3)使用可算正确，并非重点的，而是旁枝末节的答案。

(4)使用在同一单元上曾经用到的术语或新词汇。

(5)部分对，但因缺乏某要素使得其他选项显得更周廷。正确。

(6)若更改部分题干就会变成正确答案的选项

2.判断题

判断题是呈现一个陈述句，要求学生判断是对的还是错的。很多老师在编制这类题目时，常常是在教科书中找出一句话，对某个地方做一下改动，便之不正确。这样编制出来的题常常很糟糕，问题在于，首先，判断题陈述的常常是一些简单的事实性知识;其次，在大多数情况下，没有什么绝对正确或绝对错误，是依情况而定的。编制判断题的原则:

(1)题目应避免直抄课文或断章取义。

(2)若是要考对因果关系的了解，应该使前句和后句都是正确的，至于两者的关系则可以是对或错。

(3)除非是在考因果关系，否则同一个题目中不可含有两种概念，

(4)避免使用一些限定性词语，如;所有、有些、有时、可能、只有。等等。服经量查中的联写。

(5)避免使用否定句，尤其是双重否走的句子。

(6)避免答案为对的试题的叙述总是比答案为“错”的长。

(7)答案为“对“”错”的试题题数相当，答案不可作规则性排列。(8)叙述要明确，使备专家都能得到一致的答案。

(9)切忌故意出诱人上当的题目，例如在关键字上出现锆字。

3.填空题

填空题是给出一个缺少某个成分的陈述句，要求学生通过填写缺少的信息来补全这个陈述句。教师常常认为这类顺很好自制，而忽视自制填空题时可能出现的问题。填空题常常只设计一个正确答案，而实际上却可能存在几种并没有考虑到的潜在的正确答案，在这种情况下，如果学生给出了一个并非教师设定的，但同样也是正确的答案，他很可能会被不公正地判成是错误的，编制填空题的原则:

(1)试题当中的每一个空格只能包含一个要点，如果要考查几个要点，就需要提供几个空档。

(2)试题中的空格数量不能太多，也不能在一个陈述句中抽掉太多的关键部分，这样会导致试题难以读懂。

(3)保证所有的空格长度一致。这样，空格的长度就不会为学生猜测提供线系。

(4)所要填写的必须是重要的概念，而非毫无关联的零碎知识。

(5)各题待填的空格，查尽可能放置在未端或集中在最前面，以方便计分和容易把握陵意。

(6)如果是使用数字型的答案，则应清楚标明所要求答案的精确意。

4.简答题

简答题主要用来测量一些较低水平的技能，其设计思路与填空题十分相似，都是要求学生写出具体的重要字词、数字或符号等。只是简答题的题目一定是完整的问句，答案可以包含多个关键词，而填空题的题且通常是不完整的叙述句。简答题适用于测量各种层次的知识目标与一般中级层次的认识目标，而不适查与测量综合评价等高级认知目标。评分也不如前几种题型客观，编制简答题的原则:

(1)一般用直接疑问句编题，不完全降述句只有当其能使装意简明时才使用。

(2)皮限定答题范围与形式，如单位、简随量等。

(3)答案应是唯一的，而且简短和具体。

(4)尽量测量学科的完整知识与重要概念，当然也可以用于实际能力的测量。

(5) 测题中避免提供正确答案的线派，尽可能减少猜测答案的因素。

5.论述题

论述题最适合测量客观性试题所无法测量的那些高水平、复杂的核能。与客观性测验相比，优秀的论述题，会促健学生更加深人地探究学习，论述题不仅需要回忆有关的信息，而且要对这些信息进行积极的加工和重新组织，然后用一种逻严密，前后一致的方式论证自己的观点，表达自己的想法，学生无法依靠猜测来回答这类问题。尽管学生有可能会阐述一种一般性的观点，但他们无法轻易地掩赢自己某些不完善的知识和对数学内容片面甚至错误的理解，并且学生的回答也会体现出因考的深度和新颖性。编制论述题道循的原则:

(1)问题所涉及的应该是那些重要的概念，而非细枝末节。

(2）问题应该使学生运用或重新组织课堂或书本上所学的知识，而非简单地报告一些事实。

(3)问题既要具体而明确，避免大而宽泛，含糊不清，同时又要给学生足够的空间来展示他们的知识和技能。

(4)事先整设定评分标准，并让学生了解这些规则，知道教师在评分时重点考查哪些方面。