万力勇：算法时代教育预测的研究范式转变

我的书摘0898 2023-01-10 发布于海南

展开全文

来源：《中国社会科学文摘》2022年第9期P145—P146

作者单位：中南民族大学教育学院，原题《算法时代的教育预测及其研究范式转变》，摘自《远程教育杂志》2022年3期，张玲摘

随着大数据和机器学习方法在社会科学研究中的日益勃兴，算法时代的教育预测与传统定量教育研究相比，在研究范式上的差异体现为：研究取向从“始于假设”向“基于数据”转变，研究数据从“人为设计”到“全量真实”转变，预测方法从传统回归向机器学习转变，研究模式从单一路径到多元融合转变。

传统教育研究通常始于假设，这种研究路径有助于在简单可控的环境中探究普遍规律。以实证研究为例，其一般步骤是先在理论指导下提出研究假设，随后通过随机抽样等方式，获取研究数据并进行假设检验，若检验通过，则对教育现象进行进一步描述与解释；若验证失败，则必须修正假设或重新开展验证。这是一种自上而下的研究过程，但研究结论往往局限于特定的区域和时间内，普适性和时效性不佳。算法时代的教育预测强调从客观数据出发，不再仅仅热衷于追求难以捉摸的因果关系和繁琐的科学论证，也不再预设某种假设，而是通过机器学习算法，直接对底层海量数据进行对比分析、交叉检验、聚类统计和模式识别，从而发现既有问题、把握内在规律和预测相关客体的发展趋势。与基于经验的研究预设相比，研究者不必追求学术热点，可以凭借自己的专业敏感度，从海量数据集中发掘出更为宽广的问题域和新的研究问题。这是一种以“收集数据→分析数据→挖掘数据→结果预测”为流程的知识发现过程，相对于“始于假设”的研究取向来说，研究效率更高、研究结论的适用范围更广。这种研究进路，改变了传统教育研究追求因果推论的逻辑，不必拘泥于某种理论前提和假设，优先在整个系统层面获得更多变量间相关关系的“回路”，强化对这些回路及其节点的把握，专注于挖掘变量之间的潜在关系和规律，最大程度地减少研究者主观因素对研究的干扰，为研究者开展原创性探究提供了可行性。

传统社会科学研究方法备受诟病之处，在于研究数据的不完备、不科学、不公开、不透明，部分研究甚至存在数据滥用、数据造假等问题。算法时代基于大数据的教育预测研究，有望克服以上弊端。第一，大数据是“真实数据”而非“被设计的数据”。传统定量或定性研究所使用的数据采集方式强调人为设计，在理论先行和研究设计基础上有目的、有选择、有裁剪地采集研究数据，人为因素在一定程度上妨碍了研究数据映射教育真实的努力。而教育大数据是在不干预、不介入教育活动的前提下，对教育过程和教学行为的原始记录采集，是不被设计的、不被裁剪的数据记录，数据本身可确保真实可靠。第二，大数据是“全量数据”而非“样本数据”。大数据是接近研究对象总量或全量的数据，与传统教育研究中的抽样数据相比，“面向全体”的大数据，可以减少因抽样带来的选择性偏差和统计性误差。同时，庞大的数据样本规模有助于发现和分析教育过程中的“小概率事件”，捕捉到传统教育研究中容易忽略的因素或变量。第三，大数据是“厚数据”而非“浅数据”。大数据不仅同时包含一般意义上的结构性数据和半结构性数据，而且还蕴含着丰富的时空结构信息，是名副其实的“厚数据”，有助于研究者从时空演变角度获得对教育现象的独到解析。第四，大数据是“开放性数据”而非“独占性数据”。研究数据的公开化和研究过程的透明化，已成为教育实证研究的大趋势。大数据具有很强的开放性和共享性，其开放共享后可供其他研究人员引用或重现研究过程，以检验研究设计是否合理；同时，还可以有效提升研究成果的学术影响力，以大幅提升教育研究的科学化水平。

在机器学习算法出现之前，教育研究者主要依赖最小二乘回归（OLS）等传统回归方法，开展定量化预测研究。即将研究情境进行简化，提取自变量和因变量利用回归模型，来确定自变量X的变化是如何与因变量Y的变化相关联的，并据此作出预测。将复杂的教育系统要素高度简约化为几个自变量和因变量，并进行回归分析，所使用的信息多为替代变量，而不是可靠的直接变量，计算模型对教育对象和教育过程的过度简化，使得预测本身很容易存在偏差，并具有一定的形式化风险。而机器学习算法通过解构和模拟人类思维和人类认知策略，通过算法的自我“训练”和“学习”，可极大提升算法模拟和预测复杂教育系统的能力。如决策树递归算法的本质是把一个较复杂问题分解为几个较为简单的子问题，然后通过找出局部的或阶段的最优解，再堆叠出全局的或整个阶段的最优解，这正是人类在认知活动中通常采用的机制和策略。在人工神经网络算法中，输出的信息可能与预期结果存在一定误差，神经网络据此调整相关算法参数，不断修正误差并最终得到期望的输出结果，这与人类认知过程中的归因修正和迭代修正也比较类似。除此以外，机器学习算法还可以助力于传统教育研究所追求的“因果推断”的实现。“反事实”框架是判断变量间因果关系的主要标准，“事实”是在某个特定的条件变量影响下，可观察到的结果变量状态，而当该条件变量未施加时，结果变量所呈现出的状态称为“反事实”状态。如果“事实”状态与“反事实”状态在统计上存在显著差异，则认为该条件变量与结果变量存在因果关系。而机器学习正好擅长于在有限数据条件下，构建出一个并不存在的反事实状态，研究者便可根据实际输出的Y值和反事实状态Y值的差异，来判断因果关系是否成立。

长期以来，学术界与教育预测相关的研究大多遵循因果推断的研究路径，研究数据主要基于小数据，数据分析方法主要是传统统计法，在研究模式上比较单一。经过近年来大数据、机器学习与传统教育研究方法的相互碰撞与整合，在教育预测研究模式上，逐步形成了多元融合的趋势，具体体现在：第一，将数据挖掘、机器学习等智能算法和传统统计方法融合，使二者互补性地实现教育预测的目标。具体而言，数据挖掘和机器学习算法，可帮助研究者回答描述性、相关性推论的问题；而统计分析方法是利用各种线性或非线性统计模型开展因果推论，来回答“为什么”等问题。第二，将大数据与小数据融合。大数据的优势在于利用海量数据的一系列特征，来对教育现象进行更全面、精准的描述、预测和分析，侧重于全局层面。在对大数据进行分析的同时，从大数据中随机抽取样本构建小数据集进行深度分析，侧重于个体层面。也可以说，大数据分析侧重于获知数据中存在的潜在关系和模式，小数据分析侧重于利用统计推论或逻辑推理来检验理论假设。由此可实现数据采集的点面结合以及二者的功能性互补。第三，将相关分析与因果推断相融合。教育现象之间的相关性和因果性是进行教育预测的前提和基础。传统教育研究要么专注于因果解释，要么专注于相关性研判，而将二者结合的研究并不多见。综上所述，在算法时代，大数据和机器学习的优势在于描述性分析和相关分析，而小数据和传统统计方法在逻辑演绎及解释性分析上具有优势，二者的融合有助于在开展高精度和高效率教育预测的同时，对预测结果作出科学合理的解释。

预测在社会科学研究中具有非常重要的地位，根据预测指导实践是社会科学的重要任务。教育是一种复杂性存在，表现出多元性、异质性、关联性、非线性、时变性等特点。正因为教育的高度复杂性，教育预测作为社会预测的一个主要分支，实现难度极大。算法时代的到来，为教育预测提供了新的数据、新的预测方法和强大的计算能力，让算法驱动的教育预测成为可能。本研究将大数据和机器学习作为算法时代教育预测的技术基础，提出了在算法时代实现教育预测的具体方法，同时从宏观和微观两个角度，对算法时代教育预测的应用价值进行了阐述。并据此认为，算法时代的教育预测，在研究取向、研究数据、预测方法和研究模式上，与传统定量教育研究范式均存在很大差异。由数据化转向和算法转向形成的这种研究范式差异，有利于重塑教育定量研究的取向和功能定位，助推教育定量研究乃至整个教育研究的范式实现突破。虽然，从理论上来分析，基于大数据和机器学习的教育预测具有优越的预测性能，但预测方法是否先进有效、预测效果是否真正优越，还需要经过进一步的实证检验，这也是本研究在后续需要重点关注的问题。