基于大数据的学业水平选考科目赋分方案

张福涛lu70kpm9 2021-04-09

展开全文

原载《教育测量与评价》2019年第1期

作者介绍

杨志明/湖南师范大学测评研究中心主任、外国语学院教授，ETS Assessments（Beijing）顾问，（美国）教育考评局（ERB）原技术总监，香港中文大学博士。

【摘要】“选考自由”是我国高考改革史上的一项重大尝试，但目前的学业水平选考科目赋分方案导致了很多学生的等级分数被系统低估或高估，进而引发了物理等较难学科选考人数大幅度下降的后果，对基础教育和高校招生带来了比较大的负面影响。在考试行业常用的“标准设定”和“测验等值”方法使用条件不成熟的情况下，建议使用基于大数据代表性样本的等级赋分方案。本文所报告的是该方案的大数据模拟研究证据。

【关键词】学业水平考试；赋分方法；大数据分析

高考综合改革新方案的最大亮点是“给了学生选考的自由”，降低了“一考定终身”的危害，即容许学生从政治、历史、地理、物理、化学、生物6门或7门（含信息技术）学业水平考试科目中任选3门，并将其成绩计入高考总分，容许学生多次参加考试^[1]^[2]。据调查，“选考自由”政策深得老百姓的认可。^[3]不过，其中的选考科目赋分方法却备受争议^[3]^[4]^[5]，许多人认为赋分方案加剧了选科选考过程中的“田忌赛马”等一系列问题^[6]^[7]。其实，考试行业对这类问题已经有了一套成熟的解决方案^[8]^[9]，可惜这套方案在我国的使用条件尚不成熟^[10]，因此，很有必要探索出一套既符合中国国情、操作方便，又能达到国际水准的选考科目赋分方案。本文运用大数据分析技术，具体探讨了“用代表性样本确定选考科目等级分数”的赋分方案。初步的研究结果表明，该方案可以从测评技术方面彻底消除“田忌赛马”及其相关的问题，而且不需要对现有赋分方案等做太大调整，既科学又可操作，而且成本还不高。

一、问题的起因及其研究进展

教育部在《关于普通高中学业水平考试的实施意见》^[2]中建议：考试成绩以“等级”或“合格、不合格”呈现。计入高校招生录取总成绩的学业水平考试3个科目成绩以等级呈现，其他科目一般以“合格、不合格”呈现。以等级呈现成绩的一般分为五个等级，位次由高到低为A、B、C、D、E。原则上各省（区、市）各等级人数所占比例依次为：A等级15%，B等级30%，C等级30%，D、E等级共25%。E等级为不合格，具体比例由各省（区、市）根据基本教学质量要求和命题情况等确定。

上述建议的一个重要前提条件是考生群体的原始分数接近正态分布或合理的单峰分布。当所有文科或理科考生都要求参加某个学科考试时，上述赋分方案不会出现太大问题，因为这时的应考群体一般包含足够多的各种水平层次的考生，其得分分布会接近正态分布或合理的单峰分布。但是，当出现大批低水平考生系统性地放弃物理等较难考试科目的时候，这些科目的原始分数一定会是一个高分段人数特别多的极端负偏态分布。这时，若强行根据固定比例由高到低赋分A、B、C、D和E等级，则必定会把很多优秀考生的等级压低，出现“高手对决必定有人吃亏”的局面。与此相反，当出现大批优秀考生没有选考信息技术等较容易且不被重视学科的时候，这些学科的得分分布必定会是一个高分端人数极少的分布。这时，若同样强行根据固定比例由高到低赋分A、B、C、D和E等级，则一定会把较多学业水平不高考生的等级推高，出现“矮子里面拔将军”的局面。显然，无论是“低估高水平考生的等级”还是“高估低水平考生的等级”，都是需要避免的。否则，选学选考中“避免与高手同科竞技”的“田忌赛马”问题就无法解决。

其实，任何一项高利害的大规模考试，只要学生存在选择空间，选考较难学科的人数一定会偏少。美国的高考（SAT/ACT）给了高中生“一年多考”和“自选考试科目”的自由，结果，STEM（科学、技术、工程、数学）等较难科目的选修人数一直很少，导致“仅有71%的白人高中开全了STEM课程”，且“仅有16%高中生的数学和科学达到了良好水平”。^[11]难怪美国政府和媒体都惊呼，“他们日后需要大批量从海外输入STEM人才了”^[12]。

假若选考科目的得分会因竞争对手的不同而大不相同，则更会把“选考自由”的好政策演变成一场“田忌赛马”式的投机行为。十分遗憾的是，当前学业水平考试选考科目“不考虑选考群体特点却按固定比例由高到低划定等级分数”的赋分规则^[2]加剧了这种投机行为，直接导致了中等水平考生的成绩，或者因为选考科目较难、弃考人数太多、“分母太小”而被严重低估，或者因选考科目比较容易不被高手重视，出现“应考高手不多”而被严重高估等问题。当前试点过程中出现的，以及当年广东省“3 X”高考中出现的“物理选考人数大幅下降”的问题^[13]^[14]，就是“选考自由”和“赋分规则”加剧“田忌赛马”投机行为的一种直接反映。为了解决“分母太小”的问题，部分试点地区规定“分母的最低值为6.5万人或1.5万人”^[15]^[16]，这个方案显然还有改进的空间。

为了解决这个问题，不少专家提出了各自的解决方案^[5]^[10]^[13]。比如，有人认为“分数—等级—分数”的双重转换徒增麻烦，不如直接使用原始分数。其中，关于“把分数划分成21等”或其他更多等级的问题特别受人关注；有人主张使用标准分数，认为这样做可以使得不同学科之间分数的比较和合成更为合理，但标准分的问题也很多^[17]^[18]；还有人建议应用国际通行的“标准设定”与“测验等值”技术，既能解决“田忌赛马”给分数等级划分所带来的麻烦，又可使得不同学科之间分数的比较与合成更为科学，等等。可惜，这些方案都各有各的缺陷。比如，在我国直接使用国际先进技术的条件就被认为尚不成熟。因此，探索出一套操作方便、既符合中国国情又能保障测评质量的选考科目赋分方案，已经迫在眉睫。

令人欣慰的是，笔者通过对某省最近3年高考大数据的模拟研究，发现只要在现有赋分方案基础上添加一条“各分数等级线的确定以全省（市、区）的代表性样本为准”的前提条件，就能解决“在低水平考生弃考较难科目情况下低估高水平考生成绩”，以及“在高水平考生不参与较易科目考试情况下高估低水平考生成绩”的问题。这就是说，用代表性样本确定选考科目等级分数的方案，既有统计学的理论支持，又不需要更改目前的大政策，也不需要增加考试机构实施“标准设定”和“测验等值”等挑战性工作的压力，顺带还解决了为追求高分而出现的“田忌赛马”选考问题。这必定可以减轻高考新方案对教学工作的负面影响、大大节省管理成本，发挥高考新方案应有的社会效益。

二、用代表性样本确定选考科目等级分数的具体步骤

基于代表性样本的选考科目赋分方案可以通过以下3个步骤得到实现。

步骤一：利用历史上的考生数据确定各省的代表性样本。比如，根据选考方案实施之前3年的考生历史数据，计算物理等学科考生在全省各地、州、市的人数比例，示范性高中和非示范性高中的物理考生人数比例，物理考生的男、女性别比例，等等。这些比例可以作为选取全省代表性样本的控制变量。

步骤二：根据代表性样本确定分数等级。在学业水平考试之后，首先通过控制关键变量从各科选考群体中随机抽取一个代表性样本，再以这个代表性样本为基础，按照现有等级化方案（如表1所示的2017年浙江省赋分方案），确定A、B、C、D和E各级分数线或其他合理的分数。

表1 浙江省2017年学业水平考试赋分准则

为减少抽样误差，建议抽取这种代表性样本100次，然后计算各等级分数线的平均值，这些平均值可作为本次学业水平考试的各个等级的分数线。

步骤三：分数等级线的应用。基于代表性样本所得分数等级线一旦得到多种途径的效度验证，则可以把该分数等级化方案应用在所有选考学生身上。

这个方案在理论上是比较合理的，其基础是统计学中的抽样理论。其实践效果如何，则需要通过大数据模拟研究进行验证。

三、用代表性样本确定选考科目等级分数的大数据分析

为了验证“用代表性样本确定分数等级方案”的合理性，本研究以某省最近3年的高考理科综合成绩为对象，以考试成绩的1/3取整数所得的分数，作为物理成绩或信息技术成绩的估计值，比较了3种不同分数分布情况下，直接使用应考群体和使用代表性样本确定等级分数的结果。

1研究设计

首先，根据历年的高考数据，模拟得分分布分别为正态、严重负偏态和严重正偏态3种情况下的考生样本S1、S2和S3。

S1：正常考生大样本——选考政策试行之前的全省所有理科考生。选取大样本的目的是评估全省理科考生总体的分布是否接近正态分布。同时，利用历年高考大数据，通过控制一些关键变量，可以定义全省理科考生总体。经调查发现，通过控制选考政策试行前全省考生的文、理科性质（变量L）、全省各地、州、市的考生比例（变量D），以及示范性高中和非示范性高中的比例（变量K），可以基本保障研究样本是全省应有理科考生总体的一个代表性样本。其中，控制变量L旨在确保研究样本来自理科考生总体，控制变量D目的在于确保研究样本的地区分布与全省各地考生分布一致，控制变量K旨在保障研究样本中高、低水平群体的比例与全省总体的相应分布一致。

S2：高水平考生为主的大样本——模拟大量低水平考生放弃较难考试科目（如放弃物理）的样本。其随机抽样步骤包括：首先，控制变量D，即严格根据变量D的比例对S1进行随机抽样；其次，操控变量K，即在控制变量D的条件下操控变量K，使得随机样本S2的考生有85%的人来自示范性高中。这是模拟很多非示范性高中考生放弃了物理等较难考试科目的情景，所选样本应该属于明显的负偏态分布。

S3：低水平考生为主的大样本——模拟大量高水平考生没有参加较易考试科目（如未考信息技术）的样本。其随机抽样步骤包括：首先，控制变量D，即严格根据变量D的比例对S1进行随机抽样；其次，操控变量K，即在控制变量D的条件下操控变量K，使得随机样本S3的考生有85%的人来自非示范性高中。这是模拟很多示范性高中考生没有选考信息技术等较易考试科目的情景，所选样本应该属于明显的正偏态分布。

其次，针对上述3种样本，分别随机选取3类相应的代表性样本S11、S21和S31。

S11：从接近正态分布的样本S1中通过依次严格控制L、D和K三个变量，选取S1的一个代表性样本S11；目的是观察“使用代表性小样本S11所确定的等级分数线”与“使用全体考生样本S1所确定的等级分数线”是否非常接近。

S21：从明显负偏态选考群体S2中通过依次严格控制L、D和K三个变量，选取考生总体（符合S1构成）的一个代表性样本S21；目的是观察“使用代表性小样本S21所确定的等级分数线”与“使用全体考生样本S1所确定的等级分数线”以及“使用负偏态样本S2所确定的等级分数线”之间的差异。其研究假设是：“根据负偏态考生群体S2确定的等级分数线”会导致“明显低估高水平考生成绩”的问题，而“根据代表性样本S21或全样本S1确定的等级分数线”均不会导致“明显低估高水平考生成绩”的问题。

S31：从明显正偏态选考群体S3中通过依次严格控制L、D和K三个变量，选取考生总体（符合S1构成）的一个代表性样本S31；目的是观察“使用代表性小样本S31所确定的等级分数线”与“使用全体考生样本S1所确定的等级分数线”以及“使用正偏态考生群体S3所确定的等级分数线”之间的差异。其研究假设是：“根据正偏态考生群体S3确定的等级分数线”会导致“明显高估低水平考生成绩”的问题，而“根据代表性样本S31或全样本S1确定的等级分数”均不会导致“明显高估低水平考生成绩”的问题。

在模拟出了上述样本S1、S2、S3、S11、S21和S31之后，应用现有的分数等级化方案便能得到各种等级分数。

2 研究结果

在保持国家赋分政策不变，如严格执行表1所示的等级赋分规则的情况下，我们分别估算了3种得分条件下“使用代表性样本”和“使用非代表性样本”所确定的等级分数线。

【研究一】正常大样本与代表性小样本的比较

根据研究设计，某省的代表性样本主要是通过最近3年的理科和文科考生比例（变量L）、全省各地、州、市理科考生比例（D），以及示范性高中考生比例（变量K）所确定的。表2是关于理科考生比例的历史数据，表3是关于各地区考生人数比例的历史数据。

表2 某省2015—2017年理科和文科考生的比例（变量L）

表3 某省11个地、州、市理科考生比例（变量D）

关于理科考生中来自示范性高中和非示范性高中考生的比例（K），根据2015—2017年的数据，发现2016年和2017年的比例分别约为52%和48%。于是，通过依次控制地区变量D和示范性高中比例K，可以从实际参加2017年理科高考的152,165考生中抽取有效数据144,001个考生的数据样本，其结果如表4所示。

表4 某省2017年实际参加

理科考试的学生人数及其有效数据

注：各地区比例由历史数据所定。在收集2017年理科数据时，因部分地区人数不足，所以有效人数比当年的实际考生人数略低。

表4是选考政策之前全体理科考生的有效数据样本，因此，该样本即为S1。于是，根据样本S1，按照表1规则所得的等级分数可以作为没有偏差的真实等级分数。根据研究设计，可以从S1中随机抽取一个代表性小样本S11，其数据结构如表5所示。

表5 从理科大样本S1中随机抽取

的代表性小样本S11（N=10，001）

经检验，代表性小样本S11与全体考生有效样本S1的分布非常接近（见表6）。

表6 代表性小样本S11与全体考生S1原始分数分布之比较

由表6可知，从全体考生样本S1（N=152，165）中随机抽取的代表性小样本（N=10，001）的分数分布非常接近。于是，分别以样本S1和S11为基础，便可以按照赋分规则（表1）估计每个原始分数所对应的百分位等级，以及随后的21个等级排序（图1）。

图1 分别根据正常大样本S1

和代表性小样本S11所得等级曲线

由图1可知，基于代表性小样本S11与基于未有选考自由时全体考生样本S1所得的等级分数曲线非常一致。后经抽取100次不同的随机代表性小样本检查发现，用代表性小样本所得的21个等级分数均值，仅有5.98%的考生在原始分数14分、28分、34分、53分和77分时的等级排名被提升了1级。由于每个等级之间的分数差别为3分，所以，若用没有选考自由时全体理科考生样本所确定的分数等级，及其随后的分数作为“真值”，则用代表性样本S11确定分数等级及其随后的分数时，会有5.98%的考生被提升3分。这个结果虽然不够完美，却根除了“低估高水平考生分数”的问题。

【研究二】高水平考生为主的大样本与代表性小样本的比较

根据研究设计，一个模拟的极端负偏态样本S2的数据结构如表7所示（假定85%的考生来自示范性中学）。

表7 模拟的一个高水平考生样本S2（N=64，801）

表7所模拟的考生样本与许多非示范性高中学生放弃物理等较难考试科目的情况非常类似。根据该模拟的高水平考生样本S2，随机抽取其中的一个代表性样本S21，其数据特征如表8所示。

表8 模拟的高水平样本S2及其抽样的代表性样本S21

由表8可知，模拟大样本S2的偏态指数很高（-0.3783），平均值也很高（50.05），这种情况比较符合很多低水平考生放弃物理等较难考试科目的情况。分别根据样本S1、S2和S21，按照表1规则确定等级及其分数，并将代表性样本S21随机抽取100次求均值，所得等级排序如图2所示。

图2 分别根据正常大样本、高水平大样本

和代表性小样本确定的等级曲线

由图2可知，根据表1规则，若以无选考自由时的正常大样本S1确定的分数等级为“真值”，则直接根据高水平样本S2确定分数等级，会导致66.23%的中等水平考生被低估1个等级排名或低估3分；假若根据高水平样本S2中随机抽取的全省代表性小样本S21确定等级和分数，则会有10.51%的中等水平考生，获得更高一级的等级排名或高估3分。这个结果也说明“用代表性样本确定等级分数”不会“低估高水平考生成绩”。

【研究三】低水平考生为主的大样本与代表性小样本的比较

根据研究设计，一个模拟的极端正偏态样本S3的数据结构如表9所示（假定85%的考生来自非示范性中学）。

表9 模拟的低水平考生为主的一个样本（N=43，200）

表9所模拟的考生样本与许多示范性高中学生没有选考信息技术等较易考试科目时的情况非常类似。根据该模拟的低水平考生样本S3，随机抽取其中的一个代表性样本S31，其数据特征如表10所示。

表10 模拟的低水平样本S3及其抽样的代表性样本S31

由表10可知，模拟大样本S3的偏态指数很低（-0.0343），平均值也很低（43.53），这种情况比较符合很多高水平考生没有选考信息技术等较易科目的情况。分别根据样本S1、S3和S31，按照表1规则确定等级及其分数，并将代表性样本S31随机抽取100次求均值，所得等级排序如图3所示。

图3 分别根据正常大样本、低水平大样本

和代表性小样本确定的等级曲线

由图3可知，根据表1规则，若以无选考自由时的正常大样本S1确定的分数等级为“真值”，则直接根据低水平样本S3确定分数等级，会导致84.08%的中等水平考生被高估1～2个等级排名或被高估3～6分，其中，被高估6分的比例为3.94%；假若根据低水平样本S3中随机抽取的代表性小样本S31确定等级和分数，则会有11.31%的中等水平考生，获得更高一级的等级排名或被高估3分。这个结果同样说明“用代表性样本确定等级分数”不会“低估高水平考生成绩”，同时可以大幅度降低“高估低水平考生成绩”的人数和程度。

3 结果讨论

首先，无论选考群体是正常状态（高、低水平考生比例符合历史规律）、极端负偏态状态（高水平考生为主），还是极端正偏态状态（低水平考生为主），用代表性样本按固定比例确定的等级和分数，与历史上正常情况下的结果非常接近，可以根除“低估高水平考生等级和分数”的问题。

其次，在选考自由的条件下，若直接使用高水平考生群体（如物理考生群体）按国家指导的固定等级确定等级和分数，则有大约66%的中等水平考生的成绩会被低估一个等级或3分。

第三，若直接使用低水平考生群体（如信息技术考生群体）按国家指导的固定等级确定等级和分数，则大约84%的中等水平考生的成绩会被高估1～2个等级或3～6分，其中被高估6分的人数比例约为4%。

第四，若使用符合历史规律的代表性小样本确定等级和分数，则可以根除“低估考生等级和分数”的问题，但也会把约6%～11%的中等水平考生推高1个等级或3分。这是“用代表性样本确定等级分数”不够完美的地方。但该方案可大幅度降低“高估低水平考生成绩”的人数和程度，只要解释清楚，它通常是可以被大众所接受的。

四、几点建议

为了完善现有赋分方法，建议根据历史数据确定各省（市、区）的代表性样本，然后在实际考试之后使用代表性小样本确定等级和分数线。关于用代表性样本确定等级分数的做法会把大约6%～11%的中等水平考生推高1个等级或3分的问题，可以通过增加控制变量使得代表性样本的代表性更强的办法做进一步控制。此外，由于大众更为关注成绩被低估的问题，并对“占便宜”感到开心，因此，在没有更好的方案之前，使用代表性样本确定选考科目等级分数的方案值得推荐。为了确保等级和分数的确定能够以全省的代表性样本为基础，建议尽快采取以下行动措施。

1.成立“考试技术咨询委员会”和“考试政策咨询委员会”两类工作小组，分别保障赋分方法的科学性和社会影响的良好性。

2.培训各省相关技术团队，保障“各省（区、市）代表性样本”的选取方法科学、可行，保障新方法不会“低估高水平考生在较难学科上的得分”以及“高估低水平考生在较易学科上的得分”。

3.利用媒体解读、专家演讲等形式，向大众广而告之“升级版赋分方法”的科学性和合理性。

4.选择1～2个省（区、市）试点，“考试技术咨询委员会”全方位提供技术指导，同时请“考试政策咨询委员会”评估并追踪新方法的社会效果，确保良政的有效实施。

总之，当今选考科目的赋分规则值得进一步完善。在国际考试行业的标准做法不容易被大众接受的情况下，只要在现有方案中添加一个“根据全省（区、市）代表性样本确定分数等级线”的前提条件，就可以基本消除“田忌赛马”等问题。这必定有利于“选考自由”良政的推行，有利于基础教育的健康发展，有利于高校选才。而且，该方案还不会增加各方面的负担，可以大幅度降低管理成本等，这样的方案值得一试。

参考文献

[1]国务院.关于深化考试招生制度改革的实施意见[EB/OL].（2014-09-03）[2018-09-10]. http: //old.moe.gov.cn/ publicfiles/ business/ htmlfiles/ moe/ moe_1778/ 201409/ 174543.html.

[2]教育部.关于普通高中学业水平考试的实施意见（教基二[2014]10号）[EB/OL].（2014.12.10）. http://old.moe.gov.cn/publicfiles/business/htmlfiles/moe/s4559/201412/181664.html.

[3]新高考改革研究课题组.沪浙新高考改革4年效果如何？等级赋分技术待改进[EB/OL].（2018-07-13）[2018-09-10].http://cnews.chinadaily.com.cn/2018-07/13/content_36566407.htm.

[4]浙江省教育厅办公室.关于纠正部分普通高中学校违背教育规律和教学要求错误做法的通知（浙教办基〔2016〕97号）[EB/OL].（2016-10-22）. http:// www.dhyz.net/ info/ 1060/6041.htm.

[5]杨志明. 学业水平考试成绩等级化中的风险及其规避办法[J].教育测量与评价，2015（9）：62-64 .

[6]熊丙奇.浙沪新高考改革试点，我们试得怎么样？[EB/OL].（2017-08-16）[2017-12-10]. http:// www.sohu.com/ a /165029675_ 567589.

[7]朱邦芬.为什么浙江省高考学生选考物理人数大幅下降值得担忧[EB/OL].（2017-10-20）.http://cul.qq.com/a/20171024/013215.htm.

[8]杨志明. 做好高中学业水平考试所必需的四项测量学准备[J]. 中国考试，2017，297（1）：8-13.

[9]Dorans，N. J. Recentering and Realigning the SAT Score Distributions：How and Why[J]. Journal of Educational Measurement，2002，39（1）：59-84.

[10]于涵，韩宁，关丹丹，等. 关于改进新高考选考科目赋分方案的若干思考[J].中国高等教育研究， 2018（6）：44-49.

[11]Department of Education of USA. Science，Technology，Engineering and Math：Education for Global Leadership[EB/OL]. [2018-11-19].https://www./Stem.

[12]Neuhauser，A. Foreign Students Outpacing Americans for STEM Graduate Degrees[EB/OL]. [2018-12-20].https://www./news/articles/2016-05-17/more-stem-degrees-going-to-foreign-students.

[13]温忠麟. 新高考选考科目计分方式探讨[J].中国考试，2017（12）：23-29.

[14]陈爱文，胡文泉. 尴尬的物理：浙江新高考下的学科失衡与制度改进[J].中小学管理，2017（9）：19-21.

[15]浙江省人民政府.浙江省人民政府关于进一步深化高考综合改革试点的若干意见（浙政发﹝2017﹞45号）[EB/OL].[2018-12-20].http://www.zj.gov.cn/art/2017/11/29/art_32431_295370.html.

[16]佚名.《关于进一步深化本市高考综合改革试点工作的若干意见》政策解读[EB/OL].（2018-04-04）. http: // www. shanghai. gov.cn /nw2 /nw2314/ nw2319/ nw41893/ nw42232/ u21aw1300851.html.

[17]杨志明.高考原始分合成：问题与改进思路[J].教育测量与评价，2015（10）：61-64.

[18]杨志明.大数据分析及其在常模研发中的应用[J].教育测量与评价，2018（2）：5-11.