作者: 王晓平,博士,美国衣阿华州教育部,教育研究与评估高级顾问; 齐森,博士,华盛顿盖劳德特大学,研究员; 谢小庆,北京语言大学教育测量研究所原所长,中国教育学会统计测量分会副理事长,研究 员,博士生导师。 原文刊载于《中国考试》2018年第6期第21—27页。 摘要:“成长”和“增值”是美国教育领域的热门话题。根据2015年通过的《每一个学生都成功法案》,美国各州在问责中加大了评价学生成长进步的比重,目前美国大多数州都对学生进行成长测量。常用的成长测量模型有7种,需要根据使用目的和成绩解释框架进行选择。本文简要介绍7种模型的使用方法,为改进我国基础教育评估提供思路。 关键词:成长模型;增值评估;基础教育评估;教育改革 2015年,经过美国参众两院讨论,最终通过了新的教育改革法案——《每一个学生都成功法案》(Every Student Succeeds Act,ESSA),12月10日,奥巴马总统正式签署该法案。这意味着,美国的教育改革进入一个新的阶段。《每一个学生都成功法案》于2018年正式实行,各州在贯彻执行过程中,通过对学生成绩进步进行评估,对教师、学校和学区进行评价和问责。 1 背景:从“达标”到“达标+成长” 教育问题是美国历届总统关心的话题之一。2001年1月23日,小布什总统在宣誓就职后3天就推出了被称为“一个都不能少”(No Child Left Behind,NCLB)的教育改革方案,并于2002年1月8日正式签署该法案。其后,美国展开了一场轰轰烈烈的教育改革运动,“一个都不能少”的口号家喻户晓,“一个都不能少”的教育改革在法律的保护下稳步推进。 NCLB在解决学生“掉队”方面取得了一定成效,但是却带来新的问题。比如,教师和学生的压力增加,考试成为学校日常工作的指挥棒;在问责的压力下,许多中小学都不同程度地采取了应试措施;州统考科目在时间、资源、教师等方面得到加强,其他非统考科目(包括美术、音乐、体育等)则被削弱;为了达标,不少中小学延长学校上课时间,放学后补课,缩减了学生的休息时间;等等。NCLB导致的“应试教育”束缚了教师的创造力,“应试教育”造成的竞争性教育环境使学生的好奇心受到挫伤,其弊端日益显现。因此,小布什的教育改革遭到一些教育专家的批评,尤其是遭到来自基层教师的抵制。NCLB的改革初衷本在扭转大批学生“掉队”问题,但是改革带来的“应试教育”却伤害到学生的个性发展,束缚了教师的个性化创造。如何在“救济后进”和“保护优秀”之间找到一个平衡点,或者说如何在二者之间找到一个适度的妥协点,是奥巴马就任总统后一直关注的问题,ESSA就是在这样的背景下产生的。 2 什么是“成长”? “成长”和“增值”是美国教育领域中的热门话题。人们认识到,由于学生的原有基础不同,仅仅根据一个学习阶段的结业水平对学生、教师和学校进行评价是不合理的。相对于一个学习阶段结束时的终结性达标评价,“成长”评价更重要。在学习中,需要更多地关注学生经过学习以后获得了多大程度的成长,需要关注教师和学校在帮助学生获得成长方面所发挥的实际作用。 3 7种主要的成长测量模型 常用的成长测量模型有7种,可以分为基于纵向量表的模型、预测模型和增值模型3类。美国各州根据使用目的和成绩解释框架,选用不同的成长测量模型。 3.1 基于纵向量表的模型 基于纵向量表的成长模型是根据跨年级的纵向量表来测量学生学习成绩的绝对提高,是将学生的当前成绩与其过去成绩进行比较,看其取得了怎样的进步成长,包括增分、渐进达标和分类3种。 1)增分(gain score)模型。这种模型是计算2次测试的差异,用后一次测试的分数减去前一次测试的分数,二者之差就是成长指标。由于这种方法简便、直观、容易理解,因此使用非常广泛,常常会伴随其他方法同时使用,是“渐进达标模型”的基础。 美国还有10个州使用《大学学习和就业准备联合测试》(Partnership for the Assessment of Readiness for College and Career,PARCC)。PARCC由多个州联合开发,用于测试基础教育各个年级的学业水平,主要考查顺利完成大学学习和胜任职业所需要的知识和能力,考查范围包括学术知识、审辩式思维(critical thinking)、运用知识解决问题的能力、在收集信息的基础上形成个人看法的能力、论证并能够与他人沟通个人想法的能力,等等。与SBAC一样,PARCC也是以CCSS为依据对学生进行评估。 以美国康涅狄格州为例说明渐进达标模型的测量方法,测试工具采用的是SBAC。表1是康涅狄格州SBAC测试分数的汇总表,表中包含康涅狄格州3~8年级的SBAC测试结果。SBAC量表的分数范围为2100~2800。康涅狄格州根据学生实际得分和知识掌握情况为每个年级分别规定了“达标”和“成长”标准。从表1的左上角到右下角,显示了一个3年级学生经过5年学习升入8年级的渐进成长方向和成长过程,显示了不同水平的学生从SBAC测试的2100分成长到2800分的渐进过程。比如,4年级学生玛丽在2017年3年级时SBAC测试的成绩是2450分,这个分数在2432~2460分之间,属于3年级低水平的达标范围;2018年玛丽的测试成绩达到2518分,处于2503~2532分之间,属于4年级高水平的达标范围。从玛丽2017年和2018年的测试分数中,我们不仅可以看到玛丽的“达标”水平,还可以看到玛丽的“成长”,与2017年相比,她的成绩不仅获得了68分的增长,而且获得了从低水平达标变为高水平达标的“增级”。 3.2 预测模型 预测模型包括残差、学生成长百分等级和投射3种。与前述基于纵向量表的3种模型相同,这类成长模型也需要至少2次测试结果。但是,这类模型并不基于跨年级纵向量表之上,2次或多次测试并不要求采用纵向量表,而是采用线性和非线性的统计模型,主要是回归模型,或者以学生的同年级常模群体作为参照系,或者以大量积累的历史数据和追踪数据作为参照系,刻画学生所获得的成长。 如果说,借助相同量表或相同参照群体,渐进达标模型和残差模型可以对考生的期望成绩进行“预测”,可以对学生的成长情况进行描述,那么,既无相同量表也非相同参照群体的投射模型只能进行“投射”,只能对关于学生成长的解释作出有限的支持。俄亥俄州、田纳西州等曾经采用此模型。 3.3 增值模型 增值(value added)模型单独构成一类成长模型。增值模型,又称为多变量(multivariate)模型、教育增值评估系统(Education Value-Added Assessment System,EVAAS)、田纳西增值评估系统(Tennessee Value-Added Assessment System,TVAAS)、变量保持(Variable Persistence)模型,等等。在增值模型中,不仅包含测试分数,而且包含多种变量。增值模型不仅描述学生的成长状况,而且分析影响学生成长的原因。在一些州,增值模型不仅用于学生评估,而且用于教师、学校和学区评估,甚至被用于决定教师的奖金和聘用。最常用的增值计算工具是EVAAS软件系统,其次是层级线性和非线性模型(Hierarchical Linear and Nonlinear Modeling,HLM)。采用增值模型的主要有田纳西州、宾夕法尼亚州、俄亥俄州等。 在上述7种成长模型之外,教育问责中还会采用一些其他的评估指标,包括:1)参加考试的学生比率;2)考试平均分或熟练掌握比率;3)学生平均出勤率;4)高中学生毕业率;5)7~12年级的辍学率;6)学生和家长对学校教师的满意程度;7)教师流失率;等等。 2018年3月16日,教育部部长陈宝生在“两会”教育问题专题记者招待会上回答记者的提问时说:“要改变评价方式,完善学业考试办法,建立素质综合评价制度,不允许以分数高低对学生排名”“这次高考改革之后,高中阶段对学生的考核,增加了综合素质评价这样一个内容。这是非常明显的素质教育措施”。美国基础教育评估从“达标模型”到“达标+成长模型”的发展变化,从幼儿园到高中教育中所采用的7种主要的成长评估模型,可以为我国改进和完善基础教育的综合素质评价带来一些启发,值得我们思考和借鉴。 |
|