计算机辅助语言测试

求是1025 2023-04-12 发布于山东

展开全文

自动评测一般分为客观题自动测评和主观题自动测评两种。客观题一般都是有现成答案的多项选择题，测试时只要求学生选出正确选项即可。这种题型的自动测评对于计算机而言没有技术上的困难，很容易实现。主观题又分为两种，一是用于考查学生知识掌握情况的主观题，二是用于考查学生语言掌握情况的主观题。这两种主观题的区别是：用于考查学生知识掌握情况的主观题的测评内容是知识体系中的知识点及其相互关系，所使用的语言并不是测评的对象；而用于考查学生语言掌握情况的主观题的测评内容是语言本身，看其表达得是否正确、通顺，学生所使用的语言同时也是测评的对象。从测评的角度来讲，后者对自动测评的精度要求更高。

任何语言测试试卷一般都由客观题和主观题两种题型组成，这样便于更加准确地测评学生实际的语言水平，避免由于猜测而造成的测试信度的降低。但是，由于主观题的自动测评涉及许多领域，有许多难题没有解决，国内许多大规模考试都采取人工批阅主观题的方法。这种做法不但需要投入大量的时间和人力，而且评判的标准也不容易统一，影响测试的信度。在这种情况下，主观题的自动测评研究对于大规模标准化考试（如大学英语四、六级考试）中主观题的自动评分就显得十分迫切。

自从出现学习和教学活动以来，测试就一同诞生了。语言测试是随着外语教学而出现的。随着测试实践的发展和测试理论研究的深入，逐渐形成了“测试学”这门学科。测试学家们根据测试的形式和性质等，对测试进行了分类，以明确人们对测试的认识，以便更好地指导测试和教学实践。

从宏观上说，测试可分为客观测试和主观测试两种。客观测试又称为“选择回答”“非构建性回答”“接受性回答题目”等。客观测试时题目的答案是固定的，不允许考生自由发挥，通常也不必由考生自己写出答案，因为这种测试的答案在出题时就已准备好了，考试时考生只需选择某个答案即可。多项选择题、判断正误题、匹配题、填空题等都属于客观测试。

主观测试的题目需要考生用文字来回答，又称为“产出性回答题目”“构建性回答”“生成回答”“开放回答”等。主观测试又分为“受限的主观回答”和“扩展的主观回答”两种。前者是指答题时必须用一个词或短语来回答，而后者则指答题时不受任何限制，具体用词可以不固定，只要将关键词或关键信息包括在答案内即可，如简答题、作文题等。

根据测试实施时的风险，如测试时考生作弊可能性的大小、题目被泄露可能性的大小等因素，测试被分为“低风险测试”“中风险测试”和“高风险测试”三种。低风险测试是指考生没有作弊动机的测试。这种测试只为学习服务，即给语言学习者提供反馈信息，告诉他们距离学习目标还有多远，如小测验、自测等。中风险测试是指考生可能出现作弊动机的测试。这种测试对考生有一定的影响，但不会有深远的、可改变考生命运的影响，如语言水平分级考试、期中、期末考试、远程教育课程考试等。高风险测试则是指可改变考生命运的考试，如入学考试、证书考试、职业考试等。

最初的测试是通过纸和笔进行的，称为传统测试。随着计算机的发明及个人计算机的普及，出现了通过计算机实施的测试，即“基于计算机的测试”（computer-based testing，简称CBT）。基于计算机的测试又叫作“计算机管理的测试”“计算机增强的测试”“计算机辅助的测试”等。随着研究的深入，人们不再满足于只让计算机起一个测试媒介的作用，还利用了计算机的智能化功能，推出了“计算机自适应测试”（computer-adaptive testing，简称CAT）。计算机自适应测试可以根据考生的具体答题情况，调整测试难度，一旦测出考生水平，考试立刻终止。这种测试在很大程度上不但节约了测试时间和测试资源，而且使测试更加人性化，因为考生不会因为答不出某些很难的测试题而感到难堪，也不会因为测试题太多或太容易而浪费时间。目前采用CAT进行的语言测试题有词汇题、语法题、阅读理解题、听力理解题等，这些试题的出题形式都是多项选择题。

20世纪90年代后，随着互联网的普及，语言考试也可以在互联网上进行，出现了“基于网络的测试”（web-based testing，简称WBT）或“基于互联网的测试”（internet-based testing，简称IBT），基于网络的测试或基于互联网的测试实质上是“基于计算机的测试”（CBT）的网上再现。

有美国学者将“基于网络的测试”定义为“通过互联网实现的基于计算机的测试”，并把它分为“低技术测试”和“高技术测试”两种。在低技术测试时，测试完全在考生个人计算机上进行，服务器只保存试题、提供下载和存储答案等操作。这种测试不需要服务器端进行编程，成本低廉，考试的试题量不大，不需要考生对做题结果进行信息反馈，考试设计者不依赖计算机专家。在高技术测试时，测试对于服务器提供的难度不同的考题的依赖性很强，测试系统可根据考生的具体答题情况调节考题难度，搜集、分析考生的答案。这种测试适合于考试人数多，题库量大，有计算机专家参与的情况。它实质上是计算机自适应测试的网络化，所以又叫作“基于网络的自适应考试”（web-adaptive test，简称WAT）。一个简单的“基于网络的自适应考试”由一套难度递增的试题组成，测试开始时试题难度为中等水平，然后视考生答题情况的好坏提高或降低难度，当考生答对率不足50%时，考试就自动中止。

此外，测试还可以按其目的分为“诊断性测试”“水平测试”和“成就测试”，按参加测试的人数和规模分为“大规模测试”“中等规模测试”和“小规模测试”等。

早在1935年，在第一台电子计算机ENIAC还没有研制成功的时候，IBM公司就研制出805型模型机来进行语言测试，这是目前利用机器进行语言测试的最早记录，805型模型机是第一个可以使用机器批改客观题（多项选择题）的工具。这个模型机在美国引起了广泛的关注，得到了普遍的使用，大大地降低了人工阅卷的工作量，节省了语言测试的费用。

美国伊利诺伊大学研制出可以测评学生语言学习情况系统，叫作“全面行为分析”系统，这个系统可用于测评学生的法语课程学习情况，可记录学生一个学期的学习情况。当学生要了解学习情况时，该系统可随时提供各种信息，如所学语法项目的数量以及所得到的总分等。此外，学生还可以知道不及格的具体语法项是哪些。

1966年，美国杜克大学的E.B.派基（Ellis Batten Page，美国）开发了评价文章写作质量的“文章分级”（Project Essay Grade）系统，简称PEG。派基认为，一个人的写作风格有其内在的特性，可以用“trins”进行描述，并可对其进行量化，量化后的结果叫“proxes”。PEG的评分达到了较高的准确率，但它只是依靠统计方法来评定文章的质量，没有使用自然语言处理的深层分析技术，也没有考虑到词汇的语义。

1984年美国评估系统公司推出了MicroCAT系统。1999年又推出了更为先进的FastTEST CAT系统。这些系统的所有题目都有难度、区别度和猜测参数标注，还有题目的内容、上下文等信息。所有题目和题目水平等级信息都存储在本地计算机或本地网络的题库中。

1985年，美国杨伯翰大学的研究人员开发了法语、德语和西班牙语的CAT工具，用于大学的分级测试。

英国剑桥大学地方考试集团（The University of Cambridge Local Examinations Syndicate，简称UCLES）开发了用于学术和商业不同目的的各种语言（英语、法语、德语、西班牙语）的CAT测试工具。

欧盟理事会资助了可测试丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、冰岛语、爱尔兰语、意大利语、挪威语、葡萄牙语、西班牙语、瑞典语等14种欧洲语言的DIALANG项目。通过DIALANG，考生可以了解自己的词汇、语法、写作、阅读、听力的水平。考生还可以自己选择他们想测试语言的等级，系统通过提供词汇测试来完成语言能力的测评，所有题目都可以通过测试的进程随时进行调整。DIALANG还可给考生提供如何提高语言水平的反馈意见。

1997年，Ordinate Corporation公司开发了PhonePass系统，用于测试母语为非英语人士的英语听力和英语口语水平。测试仅需10分钟，PhonePass系统包括大声朗读句子、重复句子、回答简短问题、造句和回答开放题等5项内容，还可以通过电话测试口语水平。计算机可以利用统计模型把说话人说的某个词的声音与数据库中北美地区英语为本族语的人的发音进行比较。测试结果显示，PhonePass与人工测试结果的相关系数为0.93，在某些情况下，PhonePass测试的结果甚至比人工测试的结果还要准确。

成立于1947年的美国教育考试服务中心（Educational Testing Service，简称ETS）从成立之日起就致力于英语作文计算机评阅系统的研究。经过多年的研制，推出了可以批改学生英语作文的“电子-打分”系统，叫作E-rater。

E-rater可分别在全文和文中的单个论点两个层次上对学生提交的作文与训练所用作文的词汇进行比较，计算其相似度，并根据计算结果判断学生作文在词汇运用方面所处的分数档次。1999年该系统正式投入使用，不仅可用于美国国内著名的高风险大规模考试，如GMAT（经企管理研究生入学考试，全称为Graduate Management Admission Test）和GRE（美国研究生入学考试，全称为Graduate Record Examinations）两个考试的写作题批改中，而且还可用于托福考试（Test of English as Foreign Languages，简称TOEFL）的写作题批改，并于1998年在美国本土及许多其他国家推出了基于计算机的托福考试。仅在1999年的GMAT考试中，E-rater就成功批改了750 000份作文，与人工批改的一致性高达97%。

E-rater采用整体评分策略，从写作风格、修辞等角度整体上对作文进行评判，不存在正确或者错误答案，同时该系统需要大量的训练数据以建立评分模型。但是，对于那些需要判断答案内容是否正确并给出具体分数的自动批改类问题，E-rater显得无能为力。

在成功开发和广泛使用E-rater的基础上，美国教育考试服务中心的研究人员还开发了基于内容和限定领域的自动评分系统叫作C-rater（Concept-rater的缩写），用于短文回答问题的题型的自动测评。该系统目前只用于心理学和生物学两门学科的短文回答问题的自动评分。

英国朴次茅斯大学研制了专门用于非多项选择题和短文回答问题的自动测评系统，叫作The Automated Text Marker，简称ATM。ATM系统可以对用自然语言书写的答案内容进行评测，并且能够用于各种具体学科上。

英国利物浦大学开发了AutoMark自动评分系统，用于短文回答问题的评分。1999年该系统正式用于全英国11岁小学生的自然科学课程测试。这种自然科学课程测试属高风险测试，自1995年以来，英国每年都有50万名11～14岁的学生参加该考试。这样有影响的高风险考试采用了这个机器评分系统，说明AutoMark自动评分系统的性能已完全达到了实用的要求。

由朗文英语中心开发的朗文英语水平测试系统是一个低风险的“计算机自适应测试”系统，它通过让考生回答诸如“你为什么学英语？”等问题，来了解考生是出于商业目的，还是出于一般目的来参加测试，以发现其感兴趣的内容，然后给出词汇和语法题目。系统可根据考生回答的情况，推荐初级、中级、高级作为下一级的测试水平。考试时间仅15分钟。而该中心开发的朗文英语交互系统，则把诊断性测试与成就性测试整合在一起。朗文英语交互系统的2003版在测验和考试中还包含录像内容。

目前，利用计算机进行口语测试以及交互式测试的探索已经开始。“计算机口语能力面试系统”以及随“模拟口语能力面试系统”等都是最先进的英语口语计算机交互式考试系统。

其他各种类型的“计算机自适应测试”系统还有很多。例如，由美国国防语言研究所开发并实施的英语理解水平测试；由商业英语测试服务处研制的ACT ESL评测；由美国教育考试服务中心研制的基于计算机的TOEFL考试中的“结构与写作表达评测”以及听力评测；由COMPASS/ESL研制的“COMPASS电子写作”系统等。

“基于计算机的测试”和“计算机自适应测试”的各种语言测试系统已从最初的只限于客观题的测评，发展到了主观题的测评，从小规模、试验性的低风险测试，发展到了大规模的高风险测试。

目前利用计算机自动测评英语主观题的技术已经相当成熟，并且已经走向实用化。