大数据、人工智能与学习评价方式

张福涛lu70kpm9 2020-05-24

展开全文

本文由《北京大学教育评论》授权发布

作者：桑德拉·米丽根、张忠华；译者：高文娟

前言

数字技术及其伴随的人工智能分析技术正在改变学习评价方式。数字化评价更具实施效率，更容易推广，能更有针对性地反映个体层面的表现，更贴近学习环境，更具互动性，并且支持更具想象力的、丰富多彩的、互动性强的、及时的反馈。不过，本文认为“更多、更快、更美”只是21世纪初期学习评价的一部分。学校亟需在学习内容和评价内容方面做出相应转变，而学生则需要完成更复杂的学习任务，这些学习任务超越认知领域，超出对知识内容的掌握，更强调对能力的塑造和对技能的掌握，包括软技能或通识能力等。本文试图探讨这一学习评价的前沿领域，研究能否以及如何利用学习管理系统及其他数字学习工具所生成的大量数字化、以过程为导向的数据，对学习者掌握复杂能力和通识能力的程度进行可靠且有效的判断。本文认为，确定开发学习评价工具的测量分析标准是确保学习评价工具之信效度的关键。

一、引言

对如何改变学习评价方法的思考屡见不鲜。一直以来，学习评价的实践都紧跟教育和社会的焦点［1］。例如，当代心理测量学方法可以追溯到19世纪人类学家和优生学家对个体差异的兴趣。当时的费希尔（Ronald Aylmer Fisher）、斯皮尔曼（Charles Edward Spearman）、皮尔逊（Karl Pearson）等统计学家开发了一系列辨识个体特质的方法，其中许多方法沿用至今。20世纪初期出现的多项选择测试题，旨在客观公正地对美国军方职位申请人进行大规模评估，并提供可靠的等级排序。20世纪80至90年代，由于学校亟需更公平的遴选方式，同时也需对学生的学习承担更大的责任，在此背景下标准化测试方法得以改进。精密的统计方法和自动化施测技术的结合，使得大规模的评价和监测得以实现，而这常被广泛应用于评估“学业能力”或学生对识字算术等基本学习内容的掌握。

如今，大学教学中使用的数字工具正在显而易见地改变学习评价方式以及评估者与被评估者的关系。教师通过数字化工具设置评价体系，支持学生应答，监督作弊行为，收集学生应答情况并进行评分，向学生提供反馈、评分，汇编学生应答资料并形成报告。学习评价程序的数字化更具实施效率，能够推广到大型课堂，能更有针对性地反映个体层面的表现，更具互动性，支持更具想象力的、丰富多彩的、互动性强的及时反馈，并能更快更直接地生成评价报告。数字化评价使原本需要在复杂实施流程的支持下才能操作的评价方法（例如同伴互评和自我评价）变得更加可行。将学习评价嵌入数字学习管理系统中，能更好地实现教学相长，为开展形成性评价提供支持。如今，通过广泛应用的学习平台形成教学和评价的数字媒介已十分普遍，即使在校园的小型课堂中也是如此。可以说，这些技术进步的方式使学习评价的过程变得更加高效、迅速、灵敏，更具形成性且更为及时。

然而，除了教师评价学习的技术改进，新的评价前沿领域正逐渐兴起。通过探索使用强大的数字技术和数字化数据，尤其是过程数据，以更好地评价和报告学习成果（特别是复杂能力和通识能力的提高）。本文着重探究这一前沿领域，并分析在发展有效可靠的学习评价中所存在的困难。本文认为，有必要构建评价工具开发的新标准——测量分析标准。学习分析领域中使用的标准与教育测量中常用方法的结合，为确保所有教育评价的信度和效度要求提供了框架。

二、学习评价的当代压力

当代大学面临着改变学生学习内容和方式的压力，教师对学生的评价和报告也需要随之改变。在这一背景下，学习评价的前沿领域应运而生［2］。其核心理念是“第四次工业革命”正在进行，与对过去几代人的要求不同，当今时代需要教育者培养出具备不同技术能力的学习者［3-5］，而不再遵循单一的、简单的学习导向。随着数字通信和计算机技术的普及、知识的快速膨胀和全球化的影响，本着对人类福祉可持续公平发展的坚定承诺，21世纪的生活和工作方式正在被重新定义。而这一系列因素对学校的净影响就是：学校要重新定义学生应当学习的知识范畴，使学生在掌握某特定领域的相关知识外还具备其他特质。换言之，学生不仅需要精通知识内容，更需要掌握专业领域的技术方法。同时，除了传统学科对认知能力的培养，课程改革还要求学习者发展各学科领域通用的知识、价值观、态度、技能和信念等［6］。这就是在课程学习中从知识向能力的转变［7］。因此，课程学习不仅指对学科或专业领域的知识掌握，而且涵盖了适用于任何领域或范畴的“软技能”（soft）或“21世纪技能”（21 century skills）、“横向技能”（transversal skills）以及本文所述的“通识能力” （general capabilities）［8-9］。2015年“世界经济论坛”曾列举了学习者所需要掌握的通识能力，包括批判性思维、沟通、创造力、合作、科学素养、信息通信技术水平、毅力和好奇心等［10］。鉴于此，学生需要培养终身学习的技能［11］。这意味着学生在正式的教育环境中通过教师的指导来学习是远远不够的，他们必须能自主学习。现代学习能力不再等同于智商或天赋，而更多的是指掌握一套知识、技能以及对学习的理解和信念，从而或多或少地使个体具备其所需要的学习素养［12］。将通识能力正式纳入课程学习对教师来说是一项专业挑战。比如，对那些使用传统高等教育评价方法的课程而言，在课程结束时，教师可以基于学生提交的课程论文做出总结性评价。而如今，挑战的关键在于如何评价学习者掌握通识能力的程度。对能力的评价比对认知领域知识技能掌握程度的评价要困难许多，这对教师而言是个新领域。尤其是在大班教学中，教师并不一定掌握学生的情况，因此对学生能力的评价显得更具有挑战性。对学生复杂能力的评估本身就非常复杂，且常常需要在非标准化环境中进行，例如手工制作、与同伴合作或团队协作等。掌握复杂能力通常需要时间和练习，且与传统的课堂教学不同，这些能力的培养需要在“真实”的学习环境中展开。另外，在学习的各阶段，教师需要对学生的表现进行反馈，从而使学生和教学辅助人员共同规划，帮助学习者逐步积累相应的能力。因此，在课程改革的同时，学习评价的目标和方法也要做出必要调整。学习评价应当辅助学生和教师来判断学生对某领域所需的复杂能力和通识能力的掌握程度，而这迫切需要对该领域评价方法进行前沿性探索。

三、大数据与人工智能在学习分析中的应用前景

基于以“探索如何有效评估通识能力”为目标的大型国际研究项目的研究结果，一些学者强调最好的学习评价方式“嵌在学习环境所应用的技术中，与技术并存且能够相互转化”［13］。他们指出，嵌入式技术能够自动生成反馈，提供按需评价，并防止或减少学习评价与学习体验的分离。由于参与者的活动总是反映在日志流中，参与者不需要额外费时费力去收集数据，因此应答率（response rates）不成问题。利用学习者活动的数字踪迹进行学习评价，能够实时计算分数，并在课程进展中大大提高计算和反馈的时效性。

表面来看，这种方法似乎是可行的。现如今有大量与学习相关的数字化信息可供使用，包括点击流数据，捕捉所有学习者在使用数字学习应用程序时的每次鼠标点击、滑动或键盘操作。其他信息可以通过课堂中精密的数字化数据传感器获得，这些传感器可以捕获从眼睛注视方向到心跳频率、从言语到肢体动作的所有信息。因此，“观察”学生在学习环境中的所言、所行、所做或所写的能力得到极大提高。传统大学学习评价所需要的输入性信息包括课堂中教师的观察、学生对评价任务的应答或者学生的标准化测试成绩，但如今的数据能够系统地掌握学习过程中的所有信息，而并不仅是关于学习产出的信息。

另外，大量的现代分析方法可以用来对过程数据进行分析，比如社交网络分析、文本分析和各种形式的数据挖掘等。通过这些方法所构建的统计资料，在理论上可以作为学生表现的测量指标。教师能够分别通过网络分析、文本分析和时间序列分析“观察”到学生在课堂上与同伴互动的程度、学生的兴趣焦点和学习习惯的系统性等。过程数据及相应分析通常在数字仪表板上呈现，或以其他形式反馈给教师和学生［14］。

人工智能也可以用来对这些过程数据进行分析。人工智能是指通过计算机系统程序来模拟呈现人类智能的能力［15］。在过去的10~20年间，人工智能正越来越多地被应用于教育评价中（例如，智能教学系统、作文自动评分系统等）。人工智能的出现为发展更加有效的测量工具提供了机会，更有效的测量工具能客观、有效、高效地测量一些传统测量方法和数据难以评价的特质（例如，学生的课堂参与度）。同时人工智能也可以助力新测验的开发，对学习者的21世纪的高阶技能（例如，批判性思维、合作、沟通、在线环境中的学习能力）发展情况进行评价，且能够令这些评价更加有效［16］。对于这些高阶技能的评价依赖于更丰富的数据，特别是过程性数据。在这个数字化的时代，这些数据可以通过不同的渠道进行收集。而人工智能技术有利于这些数据的分析和挖掘，从而形成对学生高阶技能的评价。利用人工智能技术对慕课数据进行分析来评价学生在慕课学习中的参与度就是一个例子。桑德拉和她的合作者利用机器学习技术，结合教育和心理测量学方法，对学生在慕课系统论坛中所发布的讨论主题进行了分析［17］。采用人工智能技术（主题模型），她们发展出一个自动分析慕课系统论坛中所发布的讨论主题的方法。而这种分析，如果通过人力完成，非常费时，几乎不可行。基于人工智能的主题模型方法的应用能自动从非结构化数据中发现主题，从而对主题出现的频率进行分析，进而把这些主题转化成指标或者题目。通过现代心理测量模型（例如，Rasch模型或者项目反映理论模型）分析这些指标或者题目来评价学生在慕课学习中的参与度，从而对他们在慕课学习中的表现进行预测。人工智能技术还可以通过分析问题解决者在合作解决问题过程中的行为和聊天数据来发展行为指标，以测量个体的合作问题解决能力［18］。合作问题解决能力被视为21世纪的核心技能之一，已经引起了越来越多的研究者、教育者和雇主的关注。越来越多的研究者尝试开发在线任务来记录问题解决者合作解决问题的过程。这些过程数据包含了问题解决者在合作解决问题过程中的所有行为（例如，鼠标点击、滑动或键盘操作）和聊天记录，所有记录均有时间标记。研究者可以借助这些行为和聊天内容建构相应的指标，进而评价其合作解决问题的能力。人工智能技术（例如，文本分析、潜在语义分析、主题分析）可以帮助研究者自动分析聊天内容及其相应的问题场景，加上对行为数据的分析，可以发展出更有效、更有解释力的指标，从而更有效地测量合作解决问题的能力。总而言之，利用人工智能对大数据——尤其是过程数据进行更深入、透彻和高效的分析具有广阔的前景，为未来发展学习评价的方法提供了新的范式。

早期进入学习分析领域的研究者期望，过程数据会为学生和教师带来许多益处：实现教学过程可视化，支持师生的教学和学习实践反思；预测并模拟学习进展，以实现更有效的学习干预；实时追踪和分析每位学习者，以实现其学习的个性化［19-22］。如果以人工智能工具作为后盾，那么数字化应答将比人力更能胜任学习评价。

研究者的这种乐观基于他们的信念，即大数据和人工智能技术不仅可能而且应该是评估学习者通识能力时的更优选择［23］。评价个体特质或能力的传统技术包括使用自我报告量表、专家直接观察、有声思维报告、分析被试者的日记等材料、微分析方法（如对眼神或面部微表情等行为进行编码以推断个体特质）等［24］。但在真实的学习环境中，这些技术是不切实际的，它们成本高昂且耗费人力，因此教师和评估者需要寻找更好、更实用的方法。那么，他们会考虑使用嵌入在学习环境中的传感器所提供的数字化大数据，这些数据可以系统地反映学习者在学习过程中的所有信息。

四、保证学习评价的效度和信度

尽管学习评价的前景乐观，存在的困难也不容忽视。学习分析领域的研究者一直以来强调，数字化大数据作为学习的衍生品，并不一定是更好的数据［25-26］。大数据的数字痕迹能否用于构建学习指标，或者它们能否有效地反映学习成果，这一关键性的问题尚未得到令人信服的回答。此外，过程数据是否包含充足的信息尚未可知，或许缺失的信息恰恰是能解释学习的必要因素。平台或数字传感器无法捕捉所有“离线”活动，比如反思、记笔记或学生的思维活动，但这些缺失的信息可能至关重要［27］。研究者通常基于大型的自然数据集，使用相关分析、因子分析、聚类分析等方法探寻有趣的规律。如果发现的规律既符合常识性判断，又具备统计意义上的显著性，则这些规律具有解释价值，可以探讨其对学习的意义。然而事实上，研究者并不了解这些有趣的、统计上显著的规律是否适用于判断个体学习。它们可能只是偶然发生，抑或对学习无足轻重，甚至并不具备解释价值。统计关系只能表明关系并非随机，但这并不足以作为解释个体学习测量结果的依据。

在使用过程数据评价并报告复杂能力和通识能力的提升程度时，最关键的在于分析方法和教育测量方法的结合［28-34］。诸如以威尔逊的构建测量方法［35］或以证据为中心的设计方法［36］为基础的测量原则和技术，通过确保分数对价值的测量达到必要的标准，来加强评价的可信度。用分数对个体进行评价时，需要经过谨慎、有条理、以课程为中心的测量过程，这包括构建结构和证据图，使用特定规则和程序选择证据等等。测量科学之所以要建立标准，是要借此标准来判断测量方法是否适用于学习评价，也就是说，所选用的测量方法应当是有效可靠的，并能用于准确地判断个体的学习进度。值得注意的是，在将传统测量技术应用于以分析学为基础的过程数据时，研究者往往十分谨慎，这反映出学习评价与分析学领域的学者越来越意识到这类数据分析尚处于起步阶段。学习评价前沿领域最突出的困难在于，在使用数字化数据构建对复杂能力的测量时，需要明确影响学习评价质量的关键性假设，并对其逐一检验［37］。例如，学习评价总是基于一个假设：关于某项被测量的特质（不同个体具备该特质的程度不同，而对该特质的描述分析就是评价的基础。该特质本身必须有意义且合理，评价它具有现实效用。该特质必须具备维度，人们可以理解为何该特质因人而异，在评价该特质的“多”或“少”时，必须能使用等值单位对所有个体进行一致地衡量，且等值单位是可以累加并重复的。即使不能直接观察该特质，也能用可观察到的行为差异（比如个体的言行举动）来解释该特质的量级差异［38-39］。个体的行为差异必须具有解释价值，且应当能够通过这些可观测的行为差异推断该特质的程度。总之，在进行以教育为目的的评价时，应当对此类假设逐一检验，从而向参与学习评价的相关人员提供依据。学习评价的适用标准应当参考测量科学中的有关效度的讨论［40-43］和学习分析学中有关分析质量的讨论［44-45］。

近年来，学习分析领域非常关注分析应用程序的迅速发展，也开始思考该分析能否提供足够可信的证据基础［46-47］。同时，考虑到学习评价的结果通常会影响学生接下来所接受的干预，研究者对此表示担忧。学生、教师、学校或专业协会等群体，也有理由质疑测量工具是否能够对复杂能力做出评价，特别是在结合了不同类型的数据并辅以复杂的数据转换或算法的基础上。

因此，使用测量分析标准成为解决上述问题的一种方法。针对既有预定目标又有实用价值的学习评价，测量分析标准为评价的可信度提供了证据框架。需要说明的是，测量分析标准不仅能支持评价的结果，还能够使人相信，评价设计或方法的基本假设得以验证，同时评价内容也不存在其他合理的替代性解释。当然这需要设想所有可能的不确定性证据和确定性证据并逐一进行核实，以降低学习评价可能存在的失误。

五、使用过程数据评价的方法挑战

表1中列举的测量分析标准指出了分析人员在使用过程数据对复杂能力和通识能力进行可靠、有效的评价时所面临的实际困难。比如，测量分析标准要求被评价的内容清晰明确。在传统课堂中，被评价的内容通常指操作层面上的“教学内容”。而对较新的通识能力的评价则需要明晰所要评价的具体内容。这就需要研究者基于对学习者的学习进展和轨迹的理解，对不同水平的学习者在知识、理解、技能、信念、态度、价值观等特质上掌握或具有的程度进行清晰的界定。然而，基于过程数据的评估设计者常面临的困难是描述通识能力发展轨迹的相关案例太少。因此，教师或分析人员在针对某项能力设计评价方法时，首要任务应当是定义学习者的一般性学习过程，以对在不同程度上掌握该项特质的个体可能的行为模式进行合理描述，从而把学习者的特质放在一个潜在的连续尺度上衡量。定义学习过程本身并不容易，且分析人员或教师往往直接跳到数据而忽略了这一环节。然而，如果缺乏根据实证证据所定义出的理论学习过程，就很难判定评价分数的效度、效用和解释力。在群体中对个体的表现进行评价也存在许多困难，尤其是在评价诸如团队合作能力、协作能力等仅存在于社交环境中的通识能力时。教师往往深知评价这类能力的困难所在。团队整体表现和团队成员的表现之间存在复杂的关系，而从数字化论坛参与、团队协作或多用户交互活动中采集的数据本身就具备这种复杂特性。目前的测量和评价方法很难根据这类混杂的数据进行充分可靠的个体评估。值得关注的是，近来一份为“美国全国教育进展评估”（National Assessment of Educational Progress，简称NAEP）提供的报告回顾了在过去10年间基于大规模的心理测量的针对如何测量学生协作解决问题能力的相关研究。该报告指出，迄今为止，我们尚不能对学生协作解决问题的能力进行可靠的测量［48］，而如何解决这一问题还有待进一步探究［49］。一种非技术性的解决方案是将评估重点放在团队整体表现而非个体表现上。传统上，团队属性在评价个体表现时的混淆效应往往被视为“随机误差”。然而，有更倾向于技术导向的研究者却认为，从心里测量学的角度讲，这些不同程度的“误差”反过来可以表明去除个体能力后的团队能力［50］。此外，对个人在解决问题、人际沟通或毅力等通识能力的测量是否具有普遍意义还需要进一步讨论，尤其需要考虑在不同场合中这些能力能否相互迁移。例如，一个学生在化学课堂表现出良好的解决问题的能力，是否意味着他在物理实验室或者其他工作场所也能表现出同样出色的问题解决能力？学生在网络游戏中与同伴配合默契，是否代表着他在面对面的互动中也能够与其他成员通力合作。早期的研究表明，除少数例外，总体而言这些通识能力的可迁移性较低［51］。因此，需要审慎对待特定场合中复杂综合技能的测评结果，要充分认识到这类能力测评的局限性及其对特定场合的依赖性。教师或学习评价的设计者在收集复杂能力的相关证据时可能会结合不同的信息来源（例如结合来自同伴、自我和教师等不同参与方的评价，或者结合来自论坛、讲座等不同形式的评价）。然而，如果不充分厘清来自不同信息源的各项指标之间的关系，那么这种综合评价的质量可能很差。除非各项指标均能在完全相同的维度反映某项潜在能力，否则所得到的评估结果的效度、信度、准确性、实用性都很差。面对操作层面的技术性困难，有学者质疑是否不应该尝试测量某些通识能力。例如，马斯特指出“创造力”是众所周知在任何环境中都难以测量的通识能力，那么我们要先搞清楚是否存在“创造力”这种具有普遍意义的能力，至少在某个特定领域中它究竟是否存在［52］。除非相关群体能够就某项能力的定义和发展进程明确地达成一致，否则相应的评估难以进行。还需要指出的是，建构符合测量分析标准的测度不仅耗时，而且价格昂贵、需要技术支持。只有在大规模使用时才具备经济可行性，这本身就可能在短期内限制这些方法的使用。上述讨论强调了使用过程数据对通识能力进行高质量测评时存在的实际困难。方法上的挑战具体包括测量过程中缺乏从实践中提炼出的、清晰的用于架构评价的有关能力的发展进程，评价结果缺乏普遍意义，测量标准可行性欠佳、在区别群体与个体成就差异时使用的技术方法存在局限性、需要审慎对待不同信息来源的整合等。即使稳健的测量科学方法论工具也存在一系列的短板。因此对待任何学习评价工具我们都要保持怀疑态度，认真考量其信度、效度、准确性、实用性及可解释性。

六、结论

总体而言，当代学习评价的前沿重点之一是关注能否及如何使用强大的数字化技术分析数字化数据——特别是过程数据——以更好的评估和报告学习成就（尤指通识能力）。需要注意的是在分析过程中，最可能发生的错误是误将“数据”等同于“评价”。学习评价的前沿领域极具挑战性，新的大数据集——特别是过程数据——能在多大程度上支持有效可靠的学习评价尚未可知。目前的分析方法是否适合相应任务，或者相关人员（包括学习者、教师和雇主）是否信任评价结果也存在不确定性。在使用过程数据时通常伴随着对复杂技术的应用，例如复杂的算法和数据转换等，因此针对这些数据是否具有评估效用也难免存在质疑。在数字化、自动化、自主化的环境中，对通识能力不准确、不可靠甚至无效的评估会对学习者造成不可忽视的影响。学习评价的反馈和报告会为学习者带来强烈且真实的影响，这可能是积极的，也可能是消极甚至是破坏性的［53］。尤其当智能学习评价会形成对学生接下来的学习干预时，如果评价结果与实际情况相悖，后果堪忧。

测量分析标准为使用学习分析和人工智能技术对过程数据进行学习评价提供了可靠的框架。不过该标准的严格程度可能过高以至于难以实行。测量分析标准包含了对测验的信度、效度、准确度或可解释力的质量要求，这些要求通常仅适用于高风险、大规模的评价，如PISA、SAT或GMAT等。测量分析标准的应用基于对评价及其在学习中的作用的扎实的理解，结合学习分析、人工智能以及与测量科学的方法优势，为评价前沿领域的研究者提供了一种选择。

参考文献

［1］Pellegrino, J.W. (1999). The evolution of educational assessment: Considering the past and imagining the future. William H Angoff memorial Lecture, ETS.

［2］［8］［28］Griffin, P., & Care, E. (2015). Assessment and teaching of 21st century skills: Methods and approaches (Vol. 2). Dordrecht: Springer.

［3］Tremblay, K., Lalancette, D., & Roseveare, D. (2012). Assessment of higher education learning outcomes（AAHELO）: Feasibility study report, design and implementation（Volune 1）. Paris, France: Organisation for Economic Co-operation and Development.

［4］OECD (2018). The future of education and skills: Education 2030, Geneva, Switzerland. Retrieved from http://www./education/2030/E2030%20Position%20Paper%20(05.04.2018).pdf.

［5］Milligan, S.K., Kennedy, G., & Israel, D. (2018) Assessment, credentialing and recognition in the digital era: recent developments in a fertile field. Seminar Series 272, Centre of Strategic Studies, Melbourne.

［6］Dreyfus, S. E., & Dreyfus, H. L. (1980). A five stage model of the mental activities involved in directed skill acquisition. Retrieved from http://www./get-tr-doc/pdf?AD=ADA0845518

［7］Griffin, P. (2007). The comfort of competence and the uncertainty of assessment. Studies in Educational Evaluation, 33（1）, 87—99.

［9］Asia-Pacific Education Research Institutes Network (2015) . Regional study on transversal competencies in education policy and practice, UNESCO, Bangkok. and Paris. Retrieved from: unesdoc.unesco.org/images/0023/002319/231907E.pdf

［10］World Economic Forum. (2015). New vision for education: Unlocking the potential of technology. Geneva, Switzerland.

［11］Bransford, J. D., Brown, J. D., & Cocking, R. R. (2003). How people learn: Brain, mind, experience, and school: Expanded edition. Washington DC: National Academy Press. Retrieved from http://www./read/9853/chapter/1

［12］［30］Milligan, S. K., & Griffin, P. (2016). Understanding learning and learning design in MOOCs: A measurement-based interpretation. Journal of Learning Analytics, Special Section on Learning Analytics for 21st Century Competencies: UTS, Australia. Retrieved from https://www./publication/308272525_Understanding_Learning_and_Learning_Design_in_MOOCs_A_Measurement-Based_Interpretation.

［13］［23］Scardamalia, M., Bransford, J., Kozma, B., & Quellmalz, E. (2013). New assessments and environments for knowledge building. In P. Griffin, B. McGaw, & E. Care (Eds.), Assessment and teaching of 21 century skills (Vol. 1, pp.231—300). New York: Springer.

［14］Corrin, L., & de Barba, P. (2014). Exploring students interpretation of feedback delivered through learning analytics dashboards. In B. Hegarty, J. McDonald, & S.-K. Loke(Eds.), Rhetoric and Reality: Critical perspectives on educational technology(pp. 629—633). Proceedings ASCILITE Dunedin 2014.

［15］Luckin, R. (2017). Towards artificial intelligence-based assessment systems. Nature Human Behaviour, 1(0028). Retrieved from https://www./articles/s41562-016-0028.

［16］Roll, I., & Wylie, R. (2016). Evolution and revolution in artificial intelligence in education. International Journal of Artificial Intelligence in Education, 26(2), 582—599.

［17］He, J., Rubinstein, B. I. P., Bailey, J., Zhang, R., Milligan, S., & Chan, J. (2016). MOOCs meet measurement theory: A topic-modelling approach. Paper presented at the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16), Phoenix, Arizona.

［18］Flor, M., Yoon, S. Y., Hao, J., Liu, L., & von Davier, A. (2016, June). Automated classification of collaborative problem solving interactions in simulated science tasks. In Proceedings of the 11th Workshop on Innovative Use of NLP for Building Educational Applications (pp. 31—41).

［19］Carmean, C., & Mizzi, P. (2010). The case for nudge analytics. EDUCAUSE Quarterly, 33(4). Retrieved from https://eric./?id=EJ909992.

［20］Gasevic, D., Dawson, S., & Siemens, G. (2015). Let‘s not forget: Learning analytics are about learning. TechTrends, 59(1), 64—71.

［21］［25］Siemens, G., & Long, P. (2011). Penetrating the fog: Analytics in learning and education. EDUCAUSE Review, 46(5), 30—32.

［22］［26］Greller, W., & Draschler, H. (2012). Translating learning into numbers: A framework for learning analytics. Educational Technology and Society, 15(3), 42—47.

［24］Cleary, T. J., Callan, G., l., & Zimmerman, B. J. (2012). Assessing self-regulation as a cyclical, context-specific phenomenon: Overview and analysis of SLR Microanalytic protocols. Educational Research International. Retrieved from https://doi:10.1155/2012/428639.

［27］Gunnarsson, B. L., & Alterman, R. (2013). Understanding promotions in a case study of student blogging. Paper presented at the Third International Conference on Learning Analytics and Knowledge, Leuven, Belgium.

［29］He, J., Rubinstein, B. I. P., Bailey, J., Zhang, R., Milligan, S., & Chan, J. (2016). MOOCs meet measurement theory: A topic-modelling approach. Paper presented at the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16), Phoenix, Arizona.

［31］Buckingham Shum, S., & Deakin Crick, R., (2016) Multimodal and 21st century skills learning analytics and datasets. Journal of Learning Analytics, 3（2）, 6—21.

［32］Shute, V., & Ventura, M. (2013). Stealth assessment: Measuring and supporting learning in video games. Cambridge, MA: MIT Press.

［33］Wilson M., Scalise, K., & Gochyyev, P. (2016). Assessment of learning in digital interactive social networks: A learning analytics approach. Online Learning, 20(2), 97—119.

［34］Polyak, S.T., von Davier, A., & Peterschmidt, K. (2017). Analyzing game-based collaborative problem solving with computational psychometrics. In Proceedings of ACM KDD conference, Halifax, Nova Scotia, Canada.

［35］Wilson, M. (2005). Constructing measures: An item response modeling approach. New York: Taylor & Francis Group.

［36］Mislevy, R. J., & Haertel, G. D. (2006). Implications of evidence-centered design for educational testing. Educational Measurement: Issues & Practice, 25(4), 6—20.

［37］Wright, B. D., & Masters, G. N. (1982). Rating scale analysis. Chicago: Mesa Press.

［38］Glaser, R. (1994a). Criterion-referenced tests: Part I: Origins. Educational Measurement: Issues and Practice, 13(4), 9—11.

［39］Glaser, R. (1994b). Criterion-referenced tests: Part II: Unfinished business. Educational Measurement: Issues and Practice, 13(4), 27—30.

［40］Cronbach, L., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281—302.

［41］Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1—73.

［42］Messick, S. (1995). Standards of validity and the validity of standards in performance assessment. Educational Measurement: Issues and Practice, 14(4), 5—8.

［43］Wolfe, E. W., & Smith, E. V. (2007). Instrument development tools and activities for measure validation using Rasch models: Part 1 & Part 2. In E. V. Smith, Jr. & R. M. Smith (Eds.), Rasch measurement: Advanced and specialized applications (pp. 202—290). Minnesota: JAM Press.

［44］Greller, W., & Draschler, H. (2012). Translating learning into numbers: A framework for learning analytics. Educational Technology and Society, 15(3), 42—47.

［45］Dringus, L. P. (2012). Learning analytics considered harmful. Journal of Asynchronous Learning Networks, 16(3), 87—100.

［46］Bergner, Y., Lang, C. & Gray, G. (2017). Measurement and its Uses in Learning Analytics, in Charles Lang, George Siemens, Alyssa Wise, and Dragan Gasevic (Eds.), Handbook of Learning Analytics, SOLAR.

［47］Ferguson, R, & Clow, D. (2017) Where is the evidence? A call to action for learning analytics. Paper presented at the Learning Analytics and Knowledge Conference, Simon Frazer University, Vancouver, British Columbia, Canada.

［48］Fiore, S.M., et al. (2017). Collaborative problem solving: Considerations for the national assessment of educational progress. Retrieved from https://nces./nationsreportcard/pdf/.../collaborative_problem_solving.pdf

［49］Wilson, M. & Kathleen Scalise K. (2016). Learning analytics: Negotiating the intersection of measurement technology and information technology. In J. M. Spector, B. B. Lockee, & M. D. Childress (Eds.), Learning, design, and technology: An international compendium of theory, research, practice, and policy (Published in cooperation with AECT). New York: Springer.

［50］von Davier, A.A., & Halpin, P.E. (2013). Collaborative problemsolving and the assessment of cognitive skills: Psychometric considerations. ETS Research Report.

［51］Perkins, D. N., & Salomon, G. (1992). Transfer of learning. In International encyclopedia of education (2nd ed.). Oxford, England: Pergamon Press.

［52］Masters, G, (2018). But can we measure it. Teacher Magazine, Retrieved from https://www./columnists/geoff-masters/but-can-we-measure-it.

［53］Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81—112.

（责任编辑范皑皑）

作者简介：

桑德拉·米丽根（Sandra Milligan），女，墨尔本大学教育学院评价研究中心主任、首席研究员。

张忠华，男，墨尔本大学教育学院评价研究中心研究员，博士。

译者简介：高文娟，北京大学教育学院博士研究生。

致谢：本文英文版将收入即将出版的新书：Bearman, M., Dawson, P., Tai, J., Ajjawi, R., & Boud, D.(2020). Reimagining University Assessment in a Digital World, Springer Cham。作者感谢Springer Cham的支持，文责自负。转载自：《北京大学教育评论》 2020年5月8日

排版、插图来自公众号：MOOC（微信号：openonline）

本文系“MOOC”公号转载、编辑的文章，编辑后增加的插图均来自于互联网，对文中观点保持中立，对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证，不对文章观点负责，仅作分享之用，文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布，请及时与我们联系，我们会及时内审核处理。