2019年2月26日,受教育部考试中心邀请,国际教育评价协会(IAEA)主席、美国ETS著名专家Randy Bennett先生作了一场题为“教育测评发展趋势”的学术报告。 Bennett先生提出并分析了教育测评的11个发展趋势,同时指出教育测评不会发生变化的4个方面,呼吁业内同仁要坚守教育测评的核心价值和根本原则,创新思维、勇于探索,将研究成果应用到测评实践中去。 下面分享Bennett先生所作报告的主要内容。 一 教育测评的11个发展趋势 1 应用新技术 新技术的应用,不仅能更有效地考查传统意义上所定义的那些能力,还能考查传统测评方式无法企及的新能力,并且能够收集和挖掘在线学习活动蕴含的大数据。值得注意的是,纸笔考试到机考的模式变化、学生计算机操作熟练程度的差异、不同人口群体的差异、技术的更新换代、所用语言的不同等,都会对测评结果造成影响,而要维持测评结果的公平性又将带来巨大的技术、政策、政治等方面的挑战。在考试实施方面,新技术的应用有时难免会出现故障,这也需要密切关注。 2 测评新构念 当下,如果想在高等教育、职业发展、社会参与等方面取得成就,对能力的要求越来越高,教育测评需要研究如何对新能力即新构念进行测量。新构念包括个人、群体和机构3个层面的内容,其中:个人层面包括问题解决过程、社会情感学习,群体层面包括团队运作,机构层面包括课堂或学校氛围等情境方面的因素。我们需要关注新构念的测评结果在多大程度上用于重要决策,例如高校招生或者对学校进行问责,还要关注新构念的测评在多大程度上用于形成性评价。 3 测评将建立在更深层次的认知和学习模型的基础之上 以理论为基础的模型将对考试设计和试题命制提供更多参考,对学生学习能力发展的测评也将更有意义。我们需要注意基于新模型开发的考试在多大程度上与模型相契合,以及教师是否认为新模型有助于帮助组织教学、引导课堂测评。 4 充分利用更复杂的测评任务 完成拓展性的问题解决任务最能够体现学生的学科能力。过去我们经常采用论文、实验、作品集等方式考查学生的学科能力,近年来,我们已经开始提倡甚至利用模拟任务或教育游戏等对学生进行测评。然而,测评任务越复杂,考试的覆盖面、公平性,考试开发、命题和评分的成本,考生时间消耗等方面的问题就越大。对此,可以尝试设计结构化的任务、采用更高级的考试开发工具、采取自动评分等。 5 测评更加个性化 学生具备的能力类型不同、层次不同、兴趣爱好也千差万别,如果教育测评能够更好地满足学生的个性化要求,那么对学生“知道什么、能做什么”的测评结果也将得以改善。测评的个性化有不同的维度,包括为考生提供便利的考试条件(如为盲人提供盲文试卷等)、自适应考试、设置选做题、自主选择考试科目等。 6 测评是为了促进学习 长期以来,教育测评为政策制定或行政决策提供信息,从而间接地提升学生的学习效果。然而,教育测评的价值受到越来越多的质疑,如有人认为它浪费了教学时间,有人甚至觉得它对考生有害。未来,教育测评不但要更好地考查学生能力,还应该设计一些能够指导学生学习的任务,帮助学生通过考试学习一些重要的内容,通过为学生提供质性评价来鼓励学生反思解决问题的过程。 7 测评应更好地考虑学生的背景 大规模的终结性考试往往是通过“去背景化”的试题对学生能力进行推断,忽视了学生所处的社会、学习和教学环境。好的测评应该结合学生背景判断学生的真实能力,未来可以尝试创造电子化学习环境,并将测评嵌入其中,成为“嵌入式”测评,以使测评结果更加合理可行。 8 使用“嵌入式”测评 “嵌入式”测评,更能体现真实的学习情境,可以通过2种方式实现:第一种是对学生在学校或其他学习环境中不同时间段的表现进行随机抽样,形成大数据记录,这种测评方式可以是描述性的,即只展示学生在做什么或学习什么,也可以是推断性的,即推断出学生知道什么或能做什么;第二种是选择特定时间在课程中插入一系列预先设计的活动,对学生在课堂上的反应进行记录,这种测评方式对学生的行为抽样进行预先设计,因此比较聚焦,对学生知识和能力的推断也更加可靠。在理想的情况下,最好将这2种“嵌入式”测评方式结合起来。需要注意的是,“嵌入式”测评可能引发隐私问题。 9 采用自动评分 借助自动评分技术,可以提高评分效率,还能够采用更加复杂的测评任务,从而向考生提供更详细的反馈信息。自动评分用于形成性评价完全可行,但用于高利害性考试则需要谨慎,因为其算法类似于“黑箱子”,无法检测,而且很多自动评分技术的原理只是基于相关性分析进行预测,并没有考虑构念,有些考生可能因此投机取巧获得比实际能力高的分数。对此,在应用自动评分技术之前,需要向相关方面充分解释算法原理;此外还应该确保算法模型与考试的构念相契合。 10 把新技术整合到建模和分析中 在线学习和评估导致新数据类型的出现,包括考生各种类型的活动、延续时间等,这些都是非常有用的信息。传统的心理测量学模型只适用于比较简单的数据处理,当我们拥有越来越多来自在线学习和在线测评的新型数据,尤其是过程性数据,就需要综合教育数据挖掘技术(Educational Data Mining)、学习分析技术(Learning Analytics)、教育测量学、统计学等领域的最新成果,这些都应该在建模和分析时加以考虑。 11 提供更加有效的分数报告 分数报告是考生作为用户体验的重要组成部分,能够体现出测评的正面影响机制。然而,相对于测评的其他环节,如自适应测试、模拟任务、自动评分等,分数报告的革新还比较缓慢。未来的分数报告应该以简明、直观、生动的方式反馈给学生,还能对学生的表现进行重现,同时支持学生与分数报告的互动等。 二 教育测评不可能改变的4个方面 1.教育测评的基本特征不会变,包括搜集关于考生能力的证据、基于证据对个体、群体或机构进行有意义的特性描述、为决策提供测评结果、评估教育质量和影响等。 2.教育测评的重要社会功能不会变,包括记录教育体制的有效性、监测教育水平差距、为资源分配提供信息支持、促进学习和教学等。 3.教育测评秉持的社会价值不会变,包括效度、公平性、可重复性等。 4.终结性测评和形成性测评的社会需求不会变,“嵌入式”测评不可能完全取代终结性测评。 10年后的教育,将在教和学的目的、目标、方法上发生变化,教育测评必须随之发生变化,以与之相适应。 供稿:吴泓霖 本文来自中国考试 |
|