单模型常识推理首超人类！HFL登顶OpenBookQA挑战赛

520jefferson 2022-07-26 发布于北京

展开全文

2022年7月25日，哈工大讯飞联合实验室（HFL）夺得科学常识推理阅读理解挑战赛OpenBookQA冠军，以准确率94.2%的显著优势大幅刷新榜单最好成绩，成为全球首个超越人类平均水平（91.7%）的单模型。

OpenBookQA挑战赛榜单

OpenBookQA挑战赛

OpenBookQA是由艾伦人工智能研究所（AI2）推出的科学常识推理阅读理解数据集，旨在评估机器对常识的理解和应用能力。该挑战赛吸引了众多知名高校和研究机构的关注，例如南京大学、香港中文大学、MSRA、斯坦福大学、谷歌、阿里巴巴等。

OpenBookQA数据集中的每一个题目都由问题和四个选项构成，需要机器从选项中找出正确答案。该任务的难点在于，为了正确作出回答，机器不仅需要能够正确理解问题和选项的表面语义，还需要结合外部常识知识进行推理，这对AI系统的阅读理解能力提出了新的挑战。

例如在下面的例子中，若要正确回答问题“地球自转会引起？”，需要了解“星球旋转会导致昼夜交替”这一科学常识，同时也需知道“地球自转”与其他选项相关的科学常识没有关系。

OpenBookQA问题示例

夺冠系统

面对此类问题，即使对于人类也需要掌握一定的外部常识知识后才能正确作答。那么机器是如何回答此类需要常识推理的问题呢？

哈工大讯飞联合实验室提出的X-Reasoner系统分别从知识检索和阅读理解两个角度解决科学常识推理问题。知识检索模块负责以问题和选项为线索，从科学知识库中找到与问题最相关的知识。阅读理解模块结合检索出的知识、问题和选项进行推理，给出最终答案。依托以上技术，X-Reasoner不仅在性能上大幅刷新榜单最好成绩，同时还成为了首个超过人类平均水平的单模型。

X-Reasoner模型框架

更准确的知识：复合交互式检索

只有检索出了准确的问题相关知识，才能根据相关知识做出有效推理。因此知识检索作为系统的第一步，其准确性至关重要。X-Reasoner中提出了一种基于SentenceBERT和RocketQA两种检索模型的复合交互式检索方案。通过重打分、重排序等手段，对两种模型在同一问题选项上的检索结果进行重要性的重新估计，综合挑选出最重要的10条知识作为检索结果送入阅读理解模块。

更丰富的表示：基于知识的信息增强

在获得精确的相关知识后，下一步将根据知识进行推理。X-Reasoner采用了联合知识和问题的方式，让模型进行隐式推理，给出一个答案相关的信息增强表示。该表示隐含了利用相关知识和问题所能推理得到的信息，与选项交互表示一起送入阅读理解模型进行计算。

更智能的理解：多选项对比交互

人类在回答选择题的过程中，如果对所选答案不确定，通常会采取对比不同选项的策略。例如，排除掉最不可能是答案的三个选项，那么唯一剩下的选项就是正确答案。X-Reasoner的一个特点便是模仿了人类的这种答题方式。X-Reasoner一次性对问题、四个选项以及相关的科学常识进行编码，并通过注意力机制进行交互，获得了对比选项回答问题的能力。

通过以上三个创新点的结合，X-Reasoner大幅提升了常识推理的效果，相比榜单前最好的单模型在准确率上显著提升4.4%。

···

哈工大讯飞联合实验室持续深入认知智能领域前沿技术研究，尤其在机器阅读理解领域中不断取得技术突破，先后在机器阅读理解权威评测SQuAD 2.0中全球首次超过人类平均水平，获得对话型阅读理解评测CoQA和QuAC冠军，多步推理阅读理解HotpotQA双赛道冠军，多模态阅读理解评测VCR冠军。

本次在科学常识推理阅读理解挑战赛OpenBookQA夺得冠军，并成为全球首个超过人类平均水平的单模型，使得机器能够进一步“融会贯通”，不仅能够有效地理解文本表面的意思，还能够通过融合外部知识来辅助进行推理，将机器阅读理解技术推向新的高度，推动实现机器“能理解会思考”的人工智能远大目标，有效助力“讯飞超脑2030计划”。