两种高考选考科目计分方法对比研究

张福涛lu70kpm9 2021-04-09

展开全文

原载《教育测量与评价》2020年第10期

作者简介

刘慧/北京语言大学语言科学院助理研究员，博士，主要研究方向为语言测评、教育测评。

摘要在新一轮高考综合改革中，不少省份采用科目内标准化方法对选考科目进行计分。由于各科目选考考生来自不同总体，这种计分方法可能给选考科目分数带来误导性的、表面上的可比性。对基于假设总体的量表化方法在选考科目分数量尺调整上的效果进行了研究，同时与科目内标准化方法进行对比，结果表明：采用基于假设总体的量表化方法，以统考科目作为锚测验对选考科目成绩进行调整，能够大幅降低选考科目计分上的偏差。

关键词 高考综合改革；选考科目计分；科目内标准化方法；基于假设总体的量表化方法

2014 年，《国务院关于深化考试招生制度改革的实施意见》提出启动高考综合改革试点，规定“考生总成绩由统一高考的语文、数学、外语3个科目成绩和高中学业水平考试3 个科目成绩组成”，“计入总成绩的高中学业水平考试科目，由考生根据报考高校要求和自身特长，在思想政治、历史、地理、物理、化学、生物等科目中自主选择”^[1]。同年，《教育部关于普通高中学业水平考试的实施意见》明确提出“计入高校招生录取总成绩的学业水平考试3 个科目成绩以等级呈现”^[2]，并对各等级考生所占比例提出了指导性意见。不难看出，尽管各省（市、区）的高考综合改革实施方案不尽相同，但均包含了对选考科目计分原则的说明。

目前，在进行选考科目计分时，不少省（市、区）选考科目成绩直接按照考生在相应科目所有考生中的排名等级进行赋分。然而，在高考综合改革的框架下，考生自主选择选考科目，各科目实际参加考试的考生群体并非从全体考生中随机抽取，这些各科目实际参加考试的考生往往不属于同一总体，能力水平也会存在差异。在这种情况下，选考科目计分时，直接进行科目内标准化只能带来表面上的可比性，它有可能抹去各科目选考考生群体能力水平上的差异，给分数比较与分数组合带来困难。^[3]^[4]

为了建立选考科目与其他科目成绩之间的可比性，以往研究建议以统考科目为选考科目建立通用量尺。^[5]在这一思路下，不同研究者提出了具体的计算方法。例如，20 世纪中后期有研究者提出了锚量表化的方法，即以统考科目作为锚测量对选考科目进行量表校准。^[6]这种基于假设总体的量表化方法，计算公式由Tucker 通过推导证明得到^[7]，并且在美国的SAT 和GRE 中进行了相关实践^[6]^[7]^[8]，比较成熟。新一轮高考综合改革启动后，我国学者提出的对选考科目进行统计校准的方法^[9]，也得到了学界的广泛认可。考虑到大众对“基于假设总体的量表化方法”更为熟悉，本研究为选考科目建立通用量尺时采用基于假设总体的量表化方法。^[10]笔者^[11]曾针对“当选考考生群体能力水平与考生总体并不一致时，直接采用科目内标准化方法进行计分的弊端和采用基于假设总体的量表化方法进行计分的可行性”进行了理论说明。而对于新一轮高考综合改革实践中改进选考科目计分方法必须回答的问题，即直接采用科目内标准化方法进行计分可能会带来多大的偏差，以及通过统考科目进行分数调整后能够在多大程度上减少这种偏差，还没有相关的研究成果。

本研究尝试对以上问题进行探讨：模拟考生的作答数据，然后分别采用科目内标准化方法和基于假设总体的量表化方法对选考科目进行计分。本研究拟考察在不同条件下采用科目内标准化方法进行选考科目计分可能带来的偏差，以及基于假设总体的量表化方法能够在多大程度上减少这种偏差，以期为新一轮高考综合改革中选考科目计分方法的优化提供参考。

一、两种选考科目计分方法：科目内标准化方法和基于假设总体的量表化方法

科目内标准化方法

在目前公布的各省（市、区）高考综合改革方案中，选考科目的计分方法基本上是按照设置的人数比例，根据原始分的排名划定等级，然后按照等级赋分的。这种计分方法实际上是依照原始分的高低为考生重新赋等级分，等级分传达的是考生在相应科目内的排名信息。它和以标准差为单位表示考生原始分数在群体中相对位置的标准分本质相同。采用这类计分方法时，决定选考科目成绩的是考生在相应科目全体考生中的排名，排名高则成绩高。

虽然各省（市、区）选考科目计分的基本原则相似，但在具体的计分设置上各地的设计并不相同：预先设置的等级数量不同，每个等级预设的人数比例也不相同。考虑到本研究的目的不是比较哪个省（市、区）的等级划分更为合理，而是讨论完全依据考生在相应选考科目内的排名信息进行计分的合理性，因此，本研究在使用科目内标准化方法进行计分时，不单独采用某个省（市、区）的等级赋分方案，而采用标准分作为科目内标准化方法的计分结果。

基于假设总体的量表化方法

基于假设总体的量表化方法是两种锚量表化方法之一。在具体实践中，这种方法的关键在于：根据一门或者多门统考科目基于全体考生群体的均值、方差，以及选考科目基于选考考生群体的均值、方差，估计该选考科目基于全体考生群体的均值和方差。

假设统考科目和选考科目分别记为科目A和科目B，科目B 基于全体考生的均值和方差的估计公式，见公式（1）和公式（2）^[7]。

其中：和分别是科目B 基于全体考生群体t 的均值和方差的估计值，和分别是科目B 基于选考考生群体α 的均值和方差，是依据选考考生群体α 计算出来的科目B 对科目A 的简单线性回归系数，和分别是科目A 基于全体考生群体t 的均值和方差，和分别是科目A 基于选考考生群体α 的均值和方差。估计出选考科目基于全体考生群体的均值和方差后，对选考科目原始总分进行线性转换，即得到基于科目A 全体考生原始总分所构建的通用量尺上的选考考生在科目B 上的成绩，见公式（3）。这时，科目B 成绩与科目A 成绩共同放到了通用量尺上，两个科目分数可比。

其中：X_B为选考考生科目B的原始总分，Y_B为相应原始分在通用量尺上的转换分数。

使用基于假设总体的量表化方法进行计分时，锚测量不局限于一个测验。如果锚测量由多个测验分数组成，我们可以将多个测验分数合并为一个总分作为单变量锚测量来处理，也可以将它们各自作为独立的测量分数代入换算。

二、研究设计

全体考生在选考科目和统考科目中作答反应的模拟

本研究关注锚测量为单个测验时，单个选考科目的计分情况，因此拟模拟30，000 名考生在两个科目（科目A和科目B）上的作答反应。研究者对选考考生在科目B 上的观察分数在不同计分方法下所产生的计分偏差进行考察，因为这一考察是基于观察分数进行的，考察过程中不需要确认相应科目上的观察总分是否来自多值计分还是二值计分题目，所以，为了简化研究条件，生成模拟数据时科目A 和科目B 这两个科目中的所有题目均采用“0/1”计分，试卷长度分别为60题和30 题。全体考生在两个科目上的作答反应采用多维项目反应理论（multidimensional item response theory，MIRT）模型模拟。

MIRT 模型是单维项目反应理论模型在多维情况下的扩展。^[12]本研究模拟数据时采用了实践中更加成熟稳定的补偿型MIRT 模型^[13]：三参数逻辑斯蒂克模型的补偿型多维扩展（multidimensional extension of the three-parameter logistic model，M3PL）模型，见公式（4）。

其中：а_i是项目i 在各个维度上的区分度向量，θ_j是考生j 在各个维度上的能力向量，c 是题目的猜测度参数，截距参数d 是一个标量。MIRT模型下，题目i 整道题目只有一个难度参数，MIRT 模型也定义了题目的区分度参数。

本研究题目参数生成方法如下：题目的区分度参数从（0.7，1.3）的均匀分布中随机抽取，难度参数从标准正态分布N（0，1）中随机抽取，猜测度参数的对数形式logit-c 从N（-1.09，0.5）的正态分布中随机抽取。^[14]被试的能力参数服从均值为（0，0）、协方差阵为σ 的多元正态分布。

选考考生群体的抽取

在新一轮高考综合改革背景下，每门选考科目的考生群体都是全体考生的子集。考生自主选择参加选考科目考试，构成了相应选考科目的选考考生群体。本研究选考考生群体的模拟是按照预先设定的分布，通过对全体考生进行分层随机抽样获得的：从全体30，000 名考生在科目B 上的作答数据中，按照给定分布抽取5000 人的作答反应作为选考考生群体在科目B 上的作答。

实验条件

锚测量与待校准测验的相关越高，量尺校准的结果越好。^[6]因此，统考科目与选考科目的相关强度是本研究关注的一个因素。以往研究^[15]表明，高考统考科目与其他科目观察分数存在中等或中等以上程度相关。协方差阵σ 的非主对角线元素代表科目之间的相关程度。考虑到观察分数的相关会略低于真值的相关，因此在生成模拟数据时，本研究将协方差阵σ 的非主对角线元素设置为0.6，0.7，0.8 和0.9 这4 个水平。生成模拟数据时，每个实验条件均重复30 次以获得稳定结果。本研究在协方差阵σ 的4 个水平下，30 个复本的科目A 与科目B 观察分数相关的均值分别为0.52，0.61，0.70 和0.79，记为r1，r2，r3 和r4。

在选考科目计分时，科目内标准化方法不适用，是因为各科目考生群体来自不同的总体，其能力水平均与考生总体能力水平不一致。因此，选考考生群体能力水平是本研究关注的另一个因素。考虑到全体考生总体正态分布的对称性，本研究只考察选考考生群体能力水平大于全体考生能力水平的情况。选考考生群体能力水平因素设置为5 个水平，具体设置为选考考生群体能力均值分别比全体考生在科目B 上的能力均值高0.1，0.2，0.3，0.4 和0.5 个标准差，记为a1，a2，a3，a4 和a5。

另外，在选考考生群体能力水平大于全体考生能力水平时，选考考生群体能力还很可能呈现负偏态分布。因此，选考考生群体能力分布是本研究关注的第三个因素。研究中，选考科目的选考考生能力分布设置为正态分布和β（5，2）分布两个水平。

也就是说，本研究关注统考科目与选考科目的相关强度、选考考生群体能力水平、选考考生群体能力分布这3 个因素，共计4×5×2=40 种实验条件。

另外，选考科目选考考生群体是对全体考生进行分层随机抽样获得的。在对30 个复本进行分层随机抽样时，某些条件下，当某些复本的某些层的待抽样数据量不足时，当次抽样无效。各实验条件下实际使用的复本数量如表1 所示。

表1 各实验条件实际使用的复本数量

评价标准

本研究需要比较通过科目内标准化方法和基于假设总体的量表化方法（记为m1 和m2）计算得到的选考考生科目B 成绩与考生在科目B上真实成绩的差距。通过m1，m2 两种方法得到考生成绩，其报告形式不同：m1 方法得到的是标准分；m2 方法得到的是原始分。

为了进行分数比较，报告分数的量尺应该统一，因此，我们将这3 种分数转换到给定的报告分数量尺上。本研究将报告分数的量尺设为均值为500、标准差为100。

通过m1 方法得到的选考考生的科目B 成绩为标准分，此标准分通过线性转换调整为均值为500、标准差为100 的报告分数。

通过m2 方法得到的选考考生科目B 成绩的报告分数，可以首先由公式（3）计算得到的选考考生科目B 在通用量尺上的转换分数和全体考生在科目A 上原始总分的均值、标准差来计算标准分，然后将此标准分通过线性转换调整为均值为500、标准差为100 的报告分数。

考生在科目B 上的真实成绩计算方法如下：本研究为模拟研究，考生在科目B 上的作答反应已知，因此，首先根据模拟的全体考生在科目B上的作答数据，将各考生科目B 原始总分转换为基于全体考生样本的标准分，其次将此标准分通过线性转换调整为均值为500、标准差为100 的报告分数。因为本研究要讨论的是，在选考考生群体能力水平与考生总体能力水平不一致的情况下，考生在科目B 上的观察分数在不同的计分方法下会发生怎样的偏差，所以考生科目B 成绩的真值是以观察分数而非考生能力真值为基础的。

每种实验条件分别通过科目内标准化方法和基于假设总体的量表化方法计算选考考生的科目B 成绩，并计算通过这两种方法得到的考生成绩与考生在科目B 上的真实成绩之间的均方根误差（RMSE），作为这两种方法对考生成绩估计准确性的指标。

假设x_t为考生在科目B 上的真实成绩，x_o为通过科目内标准化方法或者基于假设总体的量表化方法计算得到的选考考生成绩，n 为某种实验条件的复本数量，那么，该实验条件下的均方根误差（RMSE）见公式（5）。

数据处理

模拟数据的生成借助flexMIRT 软件完成，其他的数据整理、数据分析、结果报告借助R 软件和Origin 软件完成。

三、研究结果

两种计分方式下，科目B 成绩的均方根误差均随选考考生群体能力与全体考生能力水平差距的增加而增大；但在所有实验条件下，与采用科目内标准化方法相比，采用基于假设总体的量表化方法进行计分时，科目B 成绩的均方根误差均较小

在各实验条件下，通过科目内标准化方法和基于假设总体的量表化方法得到的选考考生科目B 成绩的均方根误差，如表2 所示。

表2 选考考生科目B 成绩的均方根误差

由表2 可知：当选考考生群体能力呈正态分布时，采用科目内标准化方法计算选考考生科目B 成绩，选考考生科目B 成绩与真实成绩会存在较大偏差，而且选考考生群体能力与全体考生能力水平差距越大，科目内标准化方法的均方根误差越大；科目A 与科目B 的相关强度对于该方法的均方根误差影响不大。虽然与科目内标准化方法下的情况相似，采用基于假设总体的量表化方法时，选考考生科目B 成绩的均方根误差也会随着选考考生群体能力与全体考生能力水平差距的增加而增大，但在所有的实验条件下，如果采用基于假设总体的量表化方法对选考考生科目B 成绩进行计分，科目B 成绩的均方根误差均会缩小，而且缩小的幅度会随着科目A 与科目B 相关强度的增加而增大。与科目内标准化方法相比，当科目A 与科目B 观察分数的相关为0.52时，使用基于假设总体的量表化方法，选考考生科目B 成绩的均方根误差会降低约32%（以选考考生群体的a1～a5 这5 种群体能力水平下的平均值来计）；观察分数的相关为0.61 时，降低约44%；观察分数的相关为0.70 时，降低约57%；观察分数的相关为0.79 时，降低约73%。

当选考考生群体能力呈负偏态分布时，两种方法下选考考生科目B 成绩的均方根误差与其呈正态分布时的变化趋势总体一致：选考考生科目B 成绩的均方根误差均会随着选考考生群体能力与全体考生能力水平差距的增加而增大；科目A 与科目B 相关强度对于科目内标准化方法的均方根误差影响不大，而基于假设总体的量表化方法下科目B 成绩的均方根误差会随着科目A 与科目B 相关强度的增加而减小；在所有实验条件下，采用基于假设总体的量表化方法对选考考生科目B 成绩进行计分时，科目B 成绩的均方根误差均会缩小。

不过，当选考考生群体能力呈负偏态分布时，科目B 的均方根误差，与其呈正态分布时也存在一些差异。当选考考生群体能力呈正态分布时，在选考考生群体的a1～a5 共5 种群体能力水平下，基于假设总体的量表化方法中的均方根误差与科目内标准化方法中均方根误差的降低幅度相似且没有明确的变化趋势。当选考考生群体能力呈负偏态分布时，在5 种群体能力水平下，均方根误差的降低幅度随群体能力水平的增加而增大。而且，总体上看，科目B 成绩的均方根误差均较选考考生群体能力呈正态分布时更大，且增幅会随选考考生群体能力与全体考生能力水平差距的增加而减小；当选考考生群体能力较强（如a4，a5 条件下）且科目A 与科目B 的相关强度较高时（如r3，r4 条件下），若采用基于假设总体的量表化方法进行计分，选考考生群体能力呈负偏态分布时的均方根误差与呈正态分布时差异不大，甚至略小于选考考生群体能力呈正态分布时的均方根误差。

在计分差异的分布上，全部实验条件下，采用基于假设总体的量表化方法来计分时，考生成绩的偏差都比采用科目内标准化方法时更小

另外，如图1 所示，为了比较两种计分方式下计分差异的分布情况，我们绘制了4 种相关强度下，选考考生科目B 成绩与真实成绩差异（由“选考考生科目B 成绩—相应考生的真实成绩”计算得来）的箱线图。每个箱线图中的5 条线分别表示上下边缘、上下四分位数和中位数，其中上、下边缘指的是“上四分位数 1.5×四分位距”和“下四分位数-1.5×四分位距”这个区间内该组数据的最大值和最小值；两个星号分别表示这组数据的最大值和最小值；黑点表示这组数据的均值。图1 中的两个横轴为具体的实验条件，纵轴为两种计分方式下计分结果与真实成绩的差异。为避免图1 中箱线图过多导致堆积重叠，每种相关强度仅选取选考考生群体能力的两端水平（a1和a5）。

图1 两种计分方式下选考考生

科目B 成绩与真实成绩的差异

从图1 可以看出，在全部实验条件下，当采用基于假设总体的量表化方法来计分时，考生成绩偏差的中位数、均值、上下四分位数以及最大值、最小值都比相应实验条件下采用科目内标准化方法时更小。与此同时，在两种计分方式下，几乎所有考生科目B 成绩与真实成绩的差异均为负值（只有个别实验条件下，一些差异为零值或正值）。这意味着，在本研究设置的模拟条件下（科目B 考生群体能力比考生总体能力水平高0.1 至0.5 个标准差），几乎所有考生得分均低于真实成绩。最后，选考考生群体的能力，对选考考生科目B 成绩偏差的离散情况有影响，且对两种方法的影响方向一致：当选考考生群体能力与考生总体能力差距为0.1 个标准差时，两种计分方式下选考考生科目B 成绩偏差全距均较小，分布均较集中；当差距为0.5 个标准差时，偏差全距均较大，分布均较分散。

四、结论与讨论

采用科目内标准化方法进行选考科目的计分存在偏差，采用基于假设总体的量表化方法能够降低这种计分偏差

本研究结果表明：采用科目内标准化方法进行选考科目的计分存在偏差，采用基于假设总体的量表化方法则能够降低这种计分偏差。无论是从均方根误差的角度来看，还是从差异分布来看，采用基于假设总体的量表化方法计分，均能够在不同程度上降低选考科目计分上的偏差；偏差降低幅度与统考科目、选考科目二者之间的相关强度有关，相关强度越高，偏差降低的幅度越高，选考科目分数量尺调整的效果越好。这一结果和以往研究的理论分析结果^[6]一致。从模拟数据来看，即使统考科目和选考科目的观察分数只存在中等程度的相关，采用基于假设总体的量表化方法仍然可以使得选考科目计分偏差明显降低。因此，在新一轮高考综合改革中，如果采用基于假设总体的量表化方法对选考科目分数量尺进行调整，应该能够产生较好的效果。

无论是采用科目内标准化方法还是采用基于假设总体的量表化方法，选考科目的计分偏差均会随着选考考生群体能力与全体考生能力水平差异的增加而增大

本研究同样显示：无论采用科目内标准化方法还是采用基于假设总体的量表化方法，选考科目的计分偏差均会随着选考考生群体能力与全体考生能力水平差异的增加而增大。如果选考考生群体能力水平与全体考生总体能力水平差异非常大，即使采用基于假设总体的标准化方法进行量尺调整，选考科目的计分还是会有不小的偏差。在实践中，如果出现选考考生群体与考生总体能力水平差异极大的情况，我们不能仅仅依靠基于假设总体的量表化方法进行选考科目的量尺调整。另外，本研究重点关注在选考考生群体能力分布、选考考生群体能力水平、统考科目与选考科目的相关强度这3 个因素的影响下，当锚测量为单个科目时，单个选考科目的计分情况。在实践中，选考科目的计分除了受上述3 个因素的影响，还会受到其他因素的影响。比如，目前有些省份历史、物理科目拟采用原始分计分^[16]，这样各选考科目题目参数（比如难度、区分度）的影响就更加不可忽视。对于这些现实中可能遇到的更为复杂和多变的问题，后续尚需依据实测数据，经研究后制定预案，为新一轮高考综合改革中选考科目的计分提供更多的参考建议。

新一轮高考综合改革提出选考科目以等级形式出现，这一规定的初衷是摒除不同科目原始分数单位不统一的缺陷，建立起不同科目考生成绩的可比性。但在实践中，具体情况比较复杂，不同科目的选考考生群体并非来自同一总体，因而直接采用科目内标准化方法可能会带来额外偏差。因此，在新一轮高考综合改革实践中，相关部门仍需对实践中遇到的新问题，进行深入、细致的研究，拿出能够落地的方案，只有这样才能更好地将制度设计落到实处。