新高考学业水平考试两种等级赋分方式的比较研究

张福涛lu70kpm9 2021-04-09

展开全文

作者简介

李付鹏/安徽省教育招生考试院命题中心主任，博士，主要研究方向为教育测量与评价。

宋吉祥/安徽省教育招生考试院，硕士，主要研究方向为教育测量与评价。

杜海燕/安徽省教育招生考试院，硕士，主要研究方向为教育测量与评价。

【摘要】对学业水平考试的选择性考试科目进行等级赋分是新一轮高考改革的关键环节。本文对高考综合改革第三批8省市公布的两种学业水平考试选择性考试科目的等级赋分方式进行了理论分析和数据模拟研究。结果表明，两种等级赋分方式均具有一定的科学性和公平性，针对给定的4个方面的比较指标，即主要测量指标的一致性、等级分数理论比例和实测比例的一致性、分数分布形态的一致性、同等级分数对应原始分数的差异性，两种等级赋分方案一致性较多，但也存在一定的差异。

【关键词】高考改革；学业水平考试；等级赋分

学业水平考试选考科目的等级赋分是新一轮高考改革的重要内容。其赋分方式的不同对于基础教育教学、学生学习、高校招生录取都将产生非常大的影响。在目前已经公布的三批高考综合改革试点省市中，其学业水平考试选考科目的等级赋分方式也在不断地调整，如第一批试点的浙江省和上海市分别实行21 个等级和11 个等级；第二批试点的山东省实行8 个等级，北京市和天津市实行21 个等级，海南省实行标准分；第三批8 省市则均采用5 个等级。浙江省和上海市的赋分方式已经在高校招生录取中使用，第二批和第三批高考综合改革省市目前尚未进行招生录取。此外，全国还有部分省市暂未实施高考综合改革。鉴于学业水平考试的等级赋分方式目前存有较大的争议，针对等级赋分方式展开研究，无论是对已经实施高考综合改革的省市，还是对暂未实施高考综合改革的省市，都具有很强的现实指导意义。^[1]^[2]^[3]

本研究对第三批高考综合改革8 省市公布的两种等级赋分方式进行理论分析和数据模拟，给出不同方式的一致性和差异性，提出了赋分方式具体实施过程中需要注意的问题和建议。

一、两种等级赋分方式

第三批高考综合改革8 省市公布的新高考总体方案框架和关键内容基本相同，即在总分合成上，考生总成绩由必考原始分数、选考原始分数和选考等级分数合成。必考原始分数为统一高考的语文、数学、外语3 个科目分数之和；选考原始分数由学业水平考试的物理或历史分数组成；选考等级分数为学业水平考试4 个选考科目化学、生物、思想政治和地理中由考生选择的2 个科目的等级分数组成。因此，8 省市新高考方案中，等级分数主要针对选考科目而言。表1给出了8 省市公布的两种等级赋分方式，差异主要体现在各等级比例和等级分数范围略有不同，其中河北省、辽宁省、江苏省、福建省、湖北省、湖南省和重庆市使用方式一，广东省使用方式二。从表1可知，两种等级赋分方式的单科赋分等级相同，起始赋分相同，转换后的等级分数相同，两种方案的总分合成方式和学科总分也相同，这为两种赋分方式的比较提供了可能性。

二、等级赋分方式设计的理论基础

正态分布是等级赋分设计的理论基础。图1给出了标准正态分布示意图，以单位标准差为基准，左右各给出了3 个标准差单位的分布情况。从图1可知，在3 个标准差范围内，正态分布曲线下的面积从左到右的数值分别是2.1%、13.6%、34.1%、34.1%、13.6%、2.1%。因此，在实际应用中，如果一组数据符合正态分布，将有68.3%的数值分布在距离均值1 个标准差范围内，约有95.4%的数值分布在距离均值2 个标准差范围内，约有99.7%的数值分布在距离均值3个标准差范围内。如果图1依据3个标准差范围内的6 个区域最右侧的两个部分合并，正态分布曲线下的面积从左到右的数值分别是2.1%、13.6%、34.1%、34.1%、15.7%。该数值分别与表1中两种方式5 个等级比例数值非常相似。分析可知，两种等级赋分方式的结果都会呈现正态分布。

图1 标准正态分布示意图

表1 两种等级赋分方式

通常认为，具有一定规模考生人数的考试原始分数的分布应具有正态性。因此，等级转换之后的分数理论上也应该具有正态性，这样转换前后的分数能够较好地保持分数分布的一致性。需要指出的是，分数分布通常服从正态分布，也未必一定服从正态分布，这与考试的目标有关。如果考试中要求试题尽可能检测学生的基本能力，则原始分数分布有可能是负偏态，等级转换后的分数分布也应该是负偏态，转换规则也应该设计为负偏态。实际上，浙江省学业水平考试的等级赋分的结果就具有负偏态的性质。

还需要指出的是，根据正态分布的性质，有限个正态分布的线性组合仍然是正态分布。这就意味着，两个学科等级赋分转换后，其分数之和依然为正态分布，这也为实行等级赋分的不同学科分数的合成提供了理论依据。

三、等级赋分方式比较的基本原则

1 科学性原则

等级赋分方式须遵从科学性原则。科学性主要体现在学业水平考试等级赋分方式的设计要符合教育心理学、教育测量学的相关理论，分数的等级转换、总分的合成等分数的解释应具有科学性。

2 公平性原则

等级赋分方式须遵从公平性原则。考生分数的差异应是考生能力水平的体现，不应该人为地“加大”或“减少”考生之间的分数差异。特别是在当前社会转型阶段，公众对考试的公平性极为关注，不同群体对公平性的理解也趋于多样化，设计学业水平考试等级赋分方式时需兼顾不同群体对公平性的诉求。

四、实验设计

1 数据基本情况

本次模拟研究数据来源于某省一次高三联考质量检测的考试成绩，样本数共计2 万，文科1万，理科1 万。根据第三批高考综合改革8 省市的改革方案，选考科目的组合共有12 种，受到数据的限制，我们以文科成绩模拟语文、数学、英语、思想政治、历史和地理的组合，以理科数据模拟语文、数学、英语、物理、化学和生物的组合，没有进行其他组合的模拟。转换后的分数按取整处理。

2 方案比较的指标要求

等级赋分实质上是通过对原始分数的转换，解决不同学科分数的可比性问题，这是一个基本的设计目标。从分数解释的角度来看，等级赋分方式的设计属于不同学科分数连接的问题。主要从以下几个指标比较^[4]：分数转换后不同选考科目的主要测量指标具有一致性；分数转换后各学科总体分数分布形态基本相同或相似；等级赋分方式各等级考生比例的理论值与实测值保持相同或相近；尽量减小相同等级分数对应的原始分数的考生成绩分数差异。其中第一个和第二个指标主要从方案设计的科学性考虑，第三个和第四个指标主要从方案设计的公平性考虑。

3 数据模拟

（1）两种等级赋分方式主要测量指标具有一致性，没有明显差异

表2给出了4 门选考科目的均值和标准差。从表2给出的数据来看，与原始分数相比，两种方案的主要统计指标都发生了较大的变化，均值有较大的增加，标准差有一定的减小，均值增加意味着较多考生转换后的分数得到一定的提升，标准差减小意味着考生分数分布相比于转换前有聚集的趋势；两种方案相比，转换后的主要统计指标基本相同，均值基本上都略大于70 分，转换后标准差在12 左右，相比于原始分数的标准差略偏小，这是一个值得注意的问题，一般期待分数的分布要有适度的标准差，既不能太过于离散也不能太过于集中。在主要统计指标中，反映转换前后分布形态变化的偏度和峰度也非常重要，由于单从数据上难以察觉变化的度量，这里没有给出具体的数值。

表2 4 门选考科目的几个主要的描述性统计指标

（2）两种等级赋分方式等级分数理论比例和实测比例具有一致性，但也有一定的差异

表3给出了两种等级转换方式等级切分的比较结果，表中各学科列表中的数值是各等级的等级转换理论值与实测值的差值。由于在等级（或区间）的切换点可能存在着相同分数的考生，这部分考生必须转化为同一个等级（或区间），实测各等级（或区间）的人数比例与理论比例，总是存在着一定的差异。一般情况下，期望实测值与理论值的差异最小化，因为切分点考生的等级归属是一种与公平性相关的问题，关系到考生的切身利益。

表3 两种转换方式等级切分差异比较

从表3中可知，两种方案都没有实现与理论值切实的一致性，都具有一定的差异性，两种方法在大部分学科的差异不明显，但是个别学科的差异比较大。此外，在等级转换时，由于本研究采取了“就近”原则，这种不一致性在两种方法中都没有表现出在等级转换时的累积现象。因此，从整体上看，两种赋分方式都与理论值不一致，但都没有造成不同选考科目等级分数理论比例和实测比例较大的不一致性。

在表3中的最后一行，给出了各学科在各等级差异的绝对值的累计值，以此种方式查看两种方法的差异性，发现差异最大的是方式二的思想政治学科，达到1062 人，差异最小的是方式二的化学学科，为154 人。从统计数据可以看出，这两种等级转换方式没有表现出很大的差异。另外，如果从学科的角度来比较两种赋分方式的等级切分差异，可以发现，相同的学科在两种方式下误差的数值较为相似，这在一定程度上说明选考科目等级分数的实测比例与理论比例的吻合程度可能与选考科目的原始分分布有关。

（3）两种等级赋分方式分数分布形态基本一致，但在局部分布区域具有一定的差异

图2给出了4个选考科目在两种赋分方式下的核密度分布。由于各学科原始分数相同，两种赋分方式经过分数转换后，图形显示的差异是由赋分方式的差异所引起的。从图2中可知，赋分方式一的离散性更宽一些，这表现在无论是高分区域，还是低分区域，赋分方式一下的核密度更大一些；赋分方式二显示出更高的峰值，因为每个图形中方式二具有更高的核密度峰值。另外，在同一个等级赋分方式下，由于不同学科原始分数的分布不同，转换后各区间的分数分布也是不同的。从该指标来看，两种赋分方式在分数分布的局部区域具有一定的差异性，赋分方式一高分区域的学生略多一些，赋分方式二中间分数的学生略多一些。图例中FJ 代表赋分方式一，GD代表赋分方式二。

图2 各学科两种赋分结果对照图

（4）两种等级赋分方式同等级分数所对应的原始分数具有一定的差异性，但差异性较小

分数转换之后，如果同一个分数等级的考生群体中存在有部分考生所对应的原始分数具有较大的差异，这对这部分考生而言是不公平的，因为这意味着，考生原始分数的差异由于等级转换而“消失”了，原始分数的差异在现行的高考录取中是具有实际意义的。因此，分数的转换要尽量减少同一个分数等级考生所对应的原始分数的差异。

表4以化学学科为例，给出了两种等级赋分方式A 等级原始分分差对比（两种等级转换方式从100 分到30 分各等级分数对应的原始分分差与表4中的结果呈现出类似的特点，这里仅给出A 等级的对比情况）。两种等级转换方式没有显著的差异，原始分分差以1 分和0 分居多，赋分方式一个别等级出现2 分的分差。从原始分分值来看，赋分方式一高分段经过等级赋分后分值略高于方式二，方式一中分段经过等级赋分后分值略低于方式二，两种赋分方式在低分段对原始分的转换结果具有一致性。这与图2的核密度分布图的结果相吻合。其他学科各等级对应的原始分的分差与化学学科具有相似的特点。本文在模拟浙江省等级赋分方式时发现，浙江省同等级分数对应原始分数的差异有时达到5 个分数点，而8 省市公布的这两种赋分方式的分差未见大于2 个分数点的现象，这显示出8 省市公布的这两种等级赋分方式具有明显的优势。

表4 两种赋分方式化学学科A 等级原始分分差对比

值得注意的是，理论上本文研究的两种等级赋分方式和山东赋分方式分数转换都可能存在着“断点”现象（转换后的等级分数呈现非连续分布），在原始分数极端分布的情况下，可能存在着较多的“断点”。浙江、上海两地的等级赋分方案中也存在类似的现象，但由于浙江、上海赋分方案中的转换分数设置在等级分数点上，因此，分数不连续是一种正常现象。本文研究的两种等级赋分方式和山东赋分方式分数等级转换的分数点是设置在等级区间的，因此，转换后的分数分布应保持和转换之前分数分布的一致性，即如果分数转换之前分数分布是连续的，转换之后分数分布也应该是连续的。

还需要指出的是，8 省市在公布新高考方案时，认为考生单科成绩分数转换后依然能够保持原始分数的名次，这要具备一定的前提条件。从表4可知，这在分数取整条件下是不成立的，分数取整条件下，存在着不同原始分数的考生等级转换后的等级分数相同的现象，这就意味着名次发生了变化，但不会发生名次的“翻转”；在分数转换前后如果保留小数分（原始分数取卷面分，等级转化后取足够小数分），则考生的名次不会发生变化。

4 进一步讨论

以上分析显示，两种赋分方式没有显示出较大的差异，而是具有较多的一致性。从分析可知，即便在同一种赋分方式下，不同学科也会表现出一定的差异，似乎原始分数的分布对等级转换后的分数具有较大的影响。从这个意义上讲，本文研究的两种赋分方式的“稳定性”略差一些，如果能够从命题上加强对原始分数分布的控制，避免分数在局部区域过度聚集，这两种赋分方式都能够满足高校招生录取的实际需要。如果原始分数的分布极度偏离正态，这两种等级赋分方式对分数的转换可能局部失效，这是一个需要防范的问题。另外，无论使用方式一还是方式二，都将4 门选考科目的成绩转换为正态分布，但是考虑到学业水平考试的性质，4 门学科的学业水平考试难度势必低于现行高考的文科综合考试难度和理科综合考试难度，在实际测试中4 门学科的原始分出现负偏态分布的可能性较大。因此，设计转换后的分数呈现负偏态分布的赋分方式似乎更加合理。