机器考阅读理解科大讯飞联合团队夺冠 | 合肥在线

英派汉 2017-08-01

展开全文

　　一场全球顶级机器阅读理解考试的最新成绩出炉。这项由斯坦福大学发起的挑战赛最新的榜单显示，科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一名，这也是中国本土研究机构首次荣登该赛事的榜首。

　　机器考阅读理解精确匹配率超过77%

　　阅读理解是人类考试中必不可少的项目之一，对于机器，又该怎样去作答和评判呢？

　　昨日记者从科大讯飞了解到，该挑战赛是通过众包的方式构建了一个大规模的机器阅读理解数据集。这个数据集有多大？大到包含了10万个问题。

　　10万个问题怎么得来的？它的原文来自500多篇维基百科文章。每次挑出几百字左右的短文给人工标注者阅读，然后让标注人员提出最多5个基于文章内容的问题并提供正确答案。

　　接下来就是机器阅读上场的时刻了。参赛者提交的系统模型在阅读完数据集中的一篇短文之后，回答若干个基于文章内容的问题，然后与人工标注的答案进行比对，得出精确匹配(Exact Match)和模糊匹配(F1-score)的结果。

　　根据挑战赛最新的成绩榜单，科大讯飞与哈工大的联合实验室提交的系统模型取得了精确匹配77.845%和模糊匹配85.297%的成绩，位列世界第一。紧随其后，位居亚军的则是微软亚洲研究院，精确匹配为77.688%，模糊匹配为84.666%。

　　会找文章关键点科大讯飞联合团队考全球第一

　　在SQuAD官网的成绩榜单上，可以看到科大讯飞与哈工大联合实验室提交的模型名为“基于交互式层叠注意力模型”。正是这个与众不同的模型，让科大讯飞在全球自然语言理解研究领域脱颖而出跃居头名。

　　“基于交互式层叠注意力模型”？啥意思？据科大讯飞技术人员透露，通俗来说，就是采用了端到端的神经网络模型，但把精力更多放在如何能够模拟人类在做阅读理解问题时的一些方法。

　　此时，就像我们平时带着问题去看书一样，科大讯飞与哈工大联合实验室提交的模型也会根据给定的问题对篇章进行多次的过滤，同时根据已经被过滤的文章进一步筛选出问题中的关键提问点。

　　“传统的自然语言处理方式是采用分拆任务的方法将其分成问题分析、篇章分析、关键句抽取等一些步骤，但这种方法容易造成级联误差的积累，很难得到很好的效果。”科大讯飞技术人员向记者解释说，他们的“交互式”模型能够逐步精确答案的范围，与其他参赛者的做法不太相同，因此最终收获了令人瞩目的成绩。

　　能为主观题评分重要考试已经显身手

　　此前，哈工大讯飞联合实验室曾先后在Google DeepMind阅读理解公开数据测试集、Facebook阅读理解公开数据测试集取得世界最好成绩，本次在SQuAD测试集再获全球最佳，包揽了机器阅读理解权威测试集的“大满贯”。

　　2014年，科大讯飞与哈尔滨工业大学就联合成立了联合实验室。联合实验室不仅能让机器在阅读理解比赛中“考出高分”，还能让机器给考卷的主观题评分。以语文考试的作文为例，在阅卷之前老师们先置一套通用的打分标准，包括字迹工整度、词汇丰富性、句子通顺度、文采、篇章结构、立意等多个层次，研究人员让机器来学习这套方案后进行阅卷。这每一项标准背后都需要精密复杂的技术支持，比如手写识别、主题模型、人工神经网络等。

　　目前，科大讯飞的全学科阅卷技术在四六级，部分省份的高考、中考等大规模考试中进行了试点验证，验证结果表明计算机评分结果已经达到了现场阅卷老师的水平，完全满足大规模考试的需要。这项技术应用到正式考试中，可以辅助人工阅卷，减少人员投入，降低人工阅卷中疲劳、情绪等因素的影响，进一步提升阅卷效率和准确性。

　　名词解释：

　　SQuAD：由斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)挑战赛是行业内公认的机器阅读理解标准水平测试，也是该领域的顶级赛事，被誉为机器阅读理解界的ImageNet(图像识别领域的顶级赛事)。参赛者来自全球学术界和产业界的研究团队，包括微软亚洲研究院、艾伦研究院、IBM、Salesforce、Facebook、谷歌以及卡内基·梅隆大学、斯坦福大学等知名企业研究机构和高校，赛事对自然语言理解的进步有重要的推动作用。合肥晚报合肥都市网记者徐颖奇刘晓平文/图