分享

李俊飞 等:试析人工神经网络在增值评价中的应用

 heitudi 2022-07-06 发布于黑龙江
图片

原文刊载于《中国考试》2022年第7期第77—84页。

作者

图片

李俊飞,南京师范大学教育科学学院在读博士生。

图片

谭顶良,南京师范大学教育科学学院教授。

摘要

  传统增值评价主要以多水平线性回归等方法构建统计模型,在实践中存在模型解释力不足、统计精准性不够、忽略数据库间的链接整合及忽略非标准化测验等问题。作为一类前沿的人工智能算法模型,人工神经网络具有处理复杂系统和自学习的能力,可帮助解决增值评价中有关模型构建、数据处理及大规模应用的问题。立足于增值评价的基本理念和技术逻辑,论证人工神经网络与增值评价在理念、数据结构及复杂性特征等方面的适配性,提出利用人工神经网络技术开展增值评价的基本策略和工作流程,以及未来实际应用研究中有待解决的算法风险、模型简洁化、可解释性等问题。

关键词

数字化考试;教育评价改革;人工神经网络;增值评价;人工智能;增值模型

图片

正文

  增值评价是通过一定的统计方法测量学生阶段性学习后所表现出的进步,从而作为教学质量和效果指标的一类教育评价方式。我国学者在2000年前后引进增值评价概念,并对相关问题展开了深入探讨,包括何为增值、所增何值、增值的原因、如何开展增值评价等[1]。随着增值评价理念的普及,评价模型经历了不断完善和发展的过程,从直接计算单科分数的增值模型发展为用于复杂教学系统的多水平获得分数模型、协变量校正模型和交叉分类模型等。然而,实践应用研究中也发现了模型解释力不足、统计精准性不够、忽略数据库间的链接整合及忽略非标准化测验等问题[2]。增值评价作为我国深化新时代教育评价改革的重要探索,如何通过技术革新来克服应用中的阻碍,是一项重大挑战。

  就增值评价模型需反映教育评价系统观和发展性要求而言,人工智能和大数据可以提供更为完善的技术方略。在教育评价实践领域,人工智能和大数据推动了诸多复杂问题的解决,尤其为教育评价中的黑箱问题提供了可行且有效的解决方案。作为借鉴人脑神经元的链接反馈机制而构建的一种人工智能算法模型,人工神经网络(artificial neural network, ANN)是通过线性加权和法、函数映射的方式来模拟人脑神经细胞传递刺激的过程,通过优化学习算法实现网络结构中的权值调整[3],具有大规模并行处理、分布式信息储存、自组织、自学习等特点[4],在处理具有复杂结构的非线性大型数据集上具有显著优势[5]。一些科技评价和教学评价领域的实践研究发现[6-8],人工神经网络在技术层面具有一般线性回归模型不可替代的价值,可为增值评价提供智能化路径,应用前景广阔。据此,本文从增值评价的基本理念和技术逻辑出发,结合我国教育教学的实际情况,论证将人工神经网络模型纳入增值评价的适配性,并提出其在大规模增值评价项目中的应用策略和研究展望。

 1 人工神经网络技术与增值评价的适配性

  增值评价中的增值分数与传统分数的主要区别体现在2个方面:一是增加值,即通过比较学生成绩在一段时间后的增量,实现“不比基础比进步”,克服传统评价唯结果、忽视过程的缺点;二是净效应,即通过统计技术尽可能分离教育中无法改变的因素的影响,使评价结果反映师生在可以改变方面作出的努力,实现“不比背景比努力”[9-10]。因此,增值分数不但可以衡量学生进步的结果,也能反映多因素交互时教学系统的作用。

  与传统评价相比,增值评价在理念、数据结构及处理复杂数据等方面提出更特殊的要求。人工神经网络对这些要求的适配程度,以及其可在多大程度上解决传统评价模型的技术问题,决定了将人工神经网络应用于增值评价实践的可行性。

1.1 人工神经网络的技术路径与增值评价理念适配

  为求得真实教与学的净效应,增值评价将每个学生的起点成绩作为自己的对照组,还需严格控制和排除非教育因素对学生成绩的影响,如种族、性别、社会经济地位等人口学和环境变量[11]。而人工神经网络恰可以处理这种多变量操控下的系统问题,并通过自学习自适应功能有效预测目标变量[12]。下面介绍一个典型的反向传播(back propagation, BP)神经网络,以期阐释这一技术路径(见图1)。

图片

  典型的三层BP神经网络拓扑结构主要包含输入层、隐含层和输出层,每层由神经元节点(即图1中的圆形)构成。神经元拥有若干输入和输出接口,用来接收和发出信号。输入层主要以若干自变量x作为节点,可灵活接收等距、连续、类别等多种数据类型;隐含层中的节点与可观测世界没有直接联系,其原理是通过激活函数来非线性化地处理数据,并传递计算结果;输出层接收隐含层的输入后,再次通过激活函数计算并输出结果y。因此,BP神经网络结构的特点是各层之间全连接,同层之间无连接。

  在BP神经网络结构中,各层信号的传递通常由Sigmond激活函数来控制,借以逼近复杂的连续映射,保证对连续映射关系的刻画能力[13],其数学表达式为:f(x)=1/(1+e-x)。BP神经网络的自学习特点是通过数据流的正向传播和误差信号的反向传播2个过程反复迭代来实现的。正向传播与传统模型中“输入-输出”的估计思想相似,而反向传播的策略是利用输出层的误差来估计前导层的误差,如此逐层反向传递来得到各层节点的误差估值[3]。首次传播前,所有权重参数是随机分配的;迭代过程中,采用梯度下降的方法调整权重参数,直至输出层的误差达到可接受的阈值。上述的训练及迭代过程能够有效保障模型对数据复杂映射关系的刻画能力,并降低误差,实现高精度估计。

  将BP神经网络应用到增值评价中,是将后测成绩作为输出节点,前测成绩、人口学和教育教学等变量作为输入节点,从而找出影响后测成绩的关键节点及相关变量,引导教学的改善和发展。BP神经网络的自学习功能还可以测量自变量对后测成绩的解释权重,从权重值上解析学生进步的“净效应”,可以用在诸如“观测值的独立性、方差的同质性、分布的正态化”等传统模型假设被违背的情境,还可以避免参数估计不足的问题[14]。因此,人工神经网络技术符合增值评价理念的基本要求,具有一定的适配性。

1.2 人工神经网络的灵活性与增值评价数据结构适配

  增值评价以学评教、以学评校的逻辑核心是由学生、教师和学校数据的层层嵌套结构决定的。然而,传统研究在使用诸如多水平线性模型(hierarchical linear modeling, HLM)处理这类多维嵌套数据时,容易受到缺失值分布不均的影响。如果缺失值是随机、可接受的,则评价结果具有一定的准确性;倘若缺失值为非随机或者是人为因素影响的伪随机,增值评价结果的可靠性则会大打折扣,如学生的流动、转班、转校或辍学均可能导致教师层和学校层间的信息饱和率不平等问题的产生。

  人工神经网络可同时将多种人口学特征变量、环境变量、学生背景变量等纳入输入层,其预测模型的构建不受数据统计分布的限制[15-16]。这种灵活、开放的特点,满足了增值评价应用场景中多层嵌套数据的适配要求。同时,借助全连接拓扑结构和激活函数的“压扁”特性,人工神经网络具有很强的容差能力,可间接提升增值评价在数据收集过程中的容错容差率,使得缺失值和错误值的影响降至极低的程度。尤其是在面对大体量数据集的情况下,人工神经网络等深度学习模型的预测准确率会明显高于传统方法[17]

  考虑到增值评价的数据嵌套特征,若将人工智能网络中层的数据结构进行自适应分类,转化为更加灵活的变量集合,或可简化多水平回归模型复杂的系数矫正程序,使输入过程中数据间相对独立。因此,人工神经网络在数据处理上具有一定的灵活性,这种灵活性适配于增值评价应用中多变量嵌套交互的特点,并在一定程度上降低数据缺失的不利影响。

1.3 人工神经网络的包容性与增值评价数据复杂性适配

  增值评价模型中的各类输入变量存在形式、尺度(单位间隔)、值域(范围)等数据特征方面的差异,使得输入变量具有较高的复杂程度,需要适配不同类型的统计模型。因此,有研究者提出获得分数模型、协变量矫正模型、多因变量模型等多种统计模型,以适配样本数据的特征。选用传统增值评价模型时,还需考虑测试的类型和次数、受测的学生群组、特征变量信息及数据处理能力等因素[18],否则难以保障增值评价可行、有效。但也有研究发现,几乎一半的教师效应是由增值评价模型选择本身引起的[19];也就是说,模型选择的过程或许降低了增值模型的信度和结果的可靠性。

  就数据复杂性和模型选择的问题而言,人工神经网络免除了烦琐地查询、表述和处理数据的过程,能够自动逼近那些符合样本数据规律的算法函数,自适应地构建相对稳健且应用广泛的模型。影响因素越复杂,非线性程度越高,神经网络的这种优势就越明显。这是因为神经网络具有自适应、自学习、自组织特点,并且善于在近似的、不确定的、甚至相互矛盾的信息环境中作出决策[20]。其对复杂数据的高度包容特性为解决增值评价中的复杂数据和模型选择问题奠定了基础。

  此外,人工神经网络的“输入-隐含-输出”结构可为增值评价评什么的问题提供答案。当前,对终结性考试成绩的增值评价已无法满足社会对引导培育学生综合素养的需求。增值评价的因变量选取将面临由单一考试分数增值到多元核心素养增值的转变,而素养测评的增值往往存在非线性特征。例如,一项对西班牙中小学生阅读理解进步的增值评价研究发现,二次方增长模型的模型拟合显著优于传统的简单线性增值模型,说明学生的阅读成长轨迹呈非线性发展[21]。如果运用人工神经网络,加入多层感知机(multi-layer perceptron, MLP)和BP算法来训练模型,就可以通过多层的双向反馈机制进行基于概率发生逻辑的自适应,进而将呈非线性发展的核心素养纳入增值评价的考查范围,克服传统模型中教师效能不变假设的局限。因此,人工神经网络能够稳健地处理非线性发展的复杂因变量,具有较高的包容性。

 2 人工神经网络在增值评价中的应用策略

  为便于表述,各类增值评价模型可概括为以下数学模型[22]y=f(x1,x2,…,xn)。其中,y表示评估对象的增值结果或出口分数,f(x)表示增值评价函数,{x1,x2,…,xn}表示增值分数的关联影响因素,包括前测成绩、学生背景、教师特征等指标。因此,增值评价模型的构建和比较目标是探索能够最大程度解释yx关系的评价函数。据此,笔者提出在增值评价中应用人工神经网络的基本策略和工作流程,见图2。

图片

  首先,要处理关于{x1,x2,…,xn}的入口问题,包括输入层变量的选取、收集和数据的标准化处理。变量选取是较为关键的部分。但在理论上,教育研究不能准确回答影响学习增值的全部问题;在实践中,学生学业成就的影响因素难以被科学、全面地测量。因此,可通过由特殊到一般的归纳逻辑去探寻变量之间的相关及因果关系,从而合理地选择输入变量。人工神经网络本身具有一定的变量提取和整合功能,还可以结合分类树等方法选取输入层变量[23]。另外,有研究者提出先人工选择变量,再通过构造局部联结、整片抽样或共享权的结构设计来降低权数,最后用分布式设计来降低误差的思路[24],这样可以在一定程度上使人工神经网络在变量选取上兼具灵活性和有效性,并提高收敛效率和性能。

  参考既往的增值评价研究结果[25-28],本研究梳理出部分学生学习增值的关联因素,详见表1。是否将上述因素纳入人工神经网络,需要结合数据收集可操作性、测量工具可靠性和对输出结果的解释程度等方面进行综合考虑。例如,输入变量的权重值大小可作为一种判断依据,可以逐步舍去权重较低的因素,并在模型训练过程中判断研究者关注的新影响变量的作用。

图片

  其次,要处理关于f(x)的模型构建、训练及评估的问题。模型构建主要包括模型选择、测试数据的划分2个部分,而模型训练主要采用仿真实验的方法,最后要对模型的性能进行评估,判断各参数的达标情况。以 BP神经网络模型的应用为例,可以将数据集随机划分为训练集(70%)、交叉验证集(10%)和测试集(20%)[29],并将训练好的模型导入验证和测试数据集来进一步评估模型的精度。如未达标,则需要重复模型构建环节,通过调整数据及模型结构来完善增值评价的人工神经网络。

  最后,要处理关于y的部分,即增值的输出结果,包括确定输出形式(定量或分类)、计算和报告增值结果3个步骤。在因变量的选择上,如果输出层是定量变量,则属于回归问题;如果是定性(属性)变量,则对应分类问题[24]。一些增值评价研究采用学生的后测成绩(出口分数)作为因变量,有些评价项目则将输出结果展示为表现分类,例如,美国更智能平衡评价联盟(Smarter Balanced Assessment Consortia, SBAC)的测试报告中,将学生掌握程度划分为没有达标、接近达标、达标和超标4个水平[30];美国田纳西州的测评结果将教师分为显著低于期望值、低于期望值、符合期望值、高于期望值、显著高于期望值5类[31]。在神经网络中,如果期望输出结果为定量形式,可将模型预测分数和实际分数的残差作为净增值量;而如果期望模型输出为定性或分类形式,可在神经网络模型中加1个判别层,作为输出层的处理层来转换评价结果的表现形式。这可以直接对增值结果进行分类,节省后期人工定级的成本。另外,人工神经网络可通过“输入-输出”的概率机制和激活函数形成决策面,来对分类进行自适应决策,在一定程度上更高效地实现各水平的正态分布,使水平分类具有更好的普适性和灵活性。

  综上所述,人工神经网络在增值评价中的应用策略由3个阶段和9个步骤组成。以目前人工神经网络在各领域的应用状况来看,该流程可基本满足增值评价的工作要求。

 3 人工神经网络在增值评价中的应用研究展望

  基于前文对人工神经网络在增值评价中应用的适配性和策略的讨论,下面简要探讨未来应用人工神经网络进行增值评价实践的前景。

3.1 如何减轻人工神经网络的算法风险

  算法带来的风险已成为当下人工智能应用中的突出问题,教育领域亦未能避免。在教育领域中,这种风险主要体现在教育和算法的矛盾上,包括教育的模糊性与算法的确定性之间的矛盾、学生发展的个性化与算法公式化之间的矛盾、教师专业能力具身性与算法去技能化之间的矛盾、教育规则的灵活性与算法硬规则之间的矛盾等[32]。这些问题不只涉及人工神经网络本身的技术路径,还涉及整个增值评价体系的整体建设。

  对于智能技术在增值评价中的应用规范问题,有研究者提出,可以采用基于证据链、基于测量、基于伦理、基于教育发展规律和认知发展规律、基于个体差异等多种研究取向开展智能时代的增值评价[33]。这些取向对调解教育与算法之间的矛盾提供了重要的解决思路,提高了评价结果的可解释性和可接受性。因此,人工神经网络在增值评价的应用中,如何减轻或调解算法带来的风险是未来研究的重点。

3.2 如何高效地落实增值评价

  我国已建成众多教育质量监测平台和较为体系化的教育评价数据库,为增值评价的研究和应用创造了基本条件。如何高效应用这些质量监测数据,是落实增值评价的关键。此外,作为我国教育评价改革的前沿探索,增值评价既可以应用到基础教育的学业水平测试中,也可为职业教育和高等教育等领域的绩效评估提供新的思路。如何科学有效地在不同场景中实施增值评价,也是当前需考虑的问题。

  人工神经网络在处理复杂大规模数据上具有一定的优势,但有时也会出现收敛效率低的情况[34]。未来研究可以探索如何提高人工神经网络的收敛效率,以保障大规模增值评价的高效实施。同时,构建适用于不同评价场景的人工神经网络可为增值评价应用范围的拓展创造条件,贴近模型简洁化的发展取向[35]。因此,提高人工神经网络自身的收敛效率,构建相对普适简洁的人工神经网络将是助力增值评价高效落实的重点。

3.3 如何解释评价结果

  研究者需要提供足够的可靠性和有效性证据,才能使相关人员理解和相信增值评价结果。如何解释人工智能技术下得到的增值评价结果,成为人工智能技术应用必须面对的问题。人工智能算法经历了基于符号逻辑的演绎推理、基于概率的归纳推理、基于因果推断的溯因推理3个阶段[36]。人工神经网络属于基于概率的归纳推理阶段的技术,但它也无法做到完全解释增值评价复杂的因果机制,这阻碍了其在高利害教育场景的进一步应用。因此,随着人工智能第三发展阶段对因果推断的溯因推理的探寻,研究者提出和开发了可解释人工智能(explainable AI,XAI)技术。XAI技术通过有意义的交互,理论上可为智能系统所作出的决策提供原因解释,使人工智能在教育领域中的应用具有可理解、可信任、可管理的特征[37]。这可为人工智能技术在增值评价中的应用带来新的突破,但该技术尚处于起步阶段,存在许多亟待研究和解决的问题。

 4 结束语

  作为我国教育评价改革的前沿探索,增值评价已出现大规模和多场景的应用趋势。本文基于增值评价和人工神经网络的基本理论,论证了人工神经网络在增值评价中应用的适配性,提出了基本应用策略。人工神经网络不仅能够适配增值评价的理念和技术要求,还可为增值评价提供智能化路径,具有广阔的应用前景。同时,也要客观处理人工智能网络技术的相关问题。在处理好变量输入、模型构建及结果输出的应用流程后,需清醒认识和发现应用条件限制和偏倚,提出相应的应对举措,为未来利用人工智能技术推动教育评价改革、开展大规模增值评价提供有价值的参考。

参考文献

图片

图片

“《中国考试》杂志”

学习强国号

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多