分享

单模型常识推理首超人类!HFL登顶OpenBookQA挑战赛

 520jefferson 2022-07-26 发布于北京

2022年7月25日,哈工大讯飞联合实验室(HFL)夺得科学常识推理阅读理解挑战赛OpenBookQA冠军以准确率94.2%的显著优势大幅刷新榜单最好成绩,成为全球首个超越人类平均水平(91.7%)的单模型

图片

OpenBookQA挑战赛榜单

OpenBookQA挑战赛

OpenBookQA是由艾伦人工智能研究所(AI2)推出的科学常识推理阅读理解数据集,旨在评估机器对常识的理解和应用能力。该挑战赛吸引了众多知名高校和研究机构的关注,例如南京大学、香港中文大学、MSRA、斯坦福大学、谷歌、阿里巴巴等。

OpenBookQA数据集中的每一个题目都由问题和四个选项构成,需要机器从选项中找出正确答案。该任务的难点在于,为了正确作出回答,机器不仅需要能够正确理解问题和选项的表面语义,还需要结合外部常识知识进行推理,这对AI系统的阅读理解能力提出了新的挑战。
例如在下面的例子中,若要正确回答问题“地球自转会引起?”,需要了解“星球旋转会导致昼夜交替”这一科学常识,同时也需知道“地球自转”与其他选项相关的科学常识没有关系。

图片

OpenBookQA问题示例

夺冠系统

面对此类问题,即使对于人类也需要掌握一定的外部常识知识后才能正确作答。那么机器是如何回答此类需要常识推理的问题呢?

哈工大讯飞联合实验室提出的X-Reasoner系统分别从知识检索和阅读理解两个角度解决科学常识推理问题知识检索模块负责以问题和选项为线索,从科学知识库中找到与问题最相关的知识。阅读理解模块结合检索出的知识、问题和选项进行推理,给出最终答案。依托以上技术,X-Reasoner不仅在性能上大幅刷新榜单最好成绩,同时还成为了首个超过人类平均水平的单模型。

图片

X-Reasoner模型框架

  • 更准确的知识:复合交互式检索

只有检索出了准确的问题相关知识,才能根据相关知识做出有效推理。因此知识检索作为系统的第一步,其准确性至关重要。X-Reasoner中提出了一种基于SentenceBERT和RocketQA两种检索模型的复合交互式检索方案。通过重打分、重排序等手段,对两种模型在同一问题选项上的检索结果进行重要性的重新估计,综合挑选出最重要的10条知识作为检索结果送入阅读理解模块。

  • 更丰富的表示:基于知识的信息增强

在获得精确的相关知识后,下一步将根据知识进行推理。X-Reasoner采用了联合知识和问题的方式,让模型进行隐式推理,给出一个答案相关的信息增强表示。该表示隐含了利用相关知识和问题所能推理得到的信息,与选项交互表示一起送入阅读理解模型进行计算。

  • 更智能的理解:多选项对比交互

人类在回答选择题的过程中,如果对所选答案不确定,通常会采取对比不同选项的策略。例如,排除掉最不可能是答案的三个选项,那么唯一剩下的选项就是正确答案。X-Reasoner的一个特点便是模仿了人类的这种答题方式。X-Reasoner一次性对问题、四个选项以及相关的科学常识进行编码,并通过注意力机制进行交互,获得了对比选项回答问题的能力。

通过以上三个创新点的结合,X-Reasoner大幅提升了常识推理的效果,相比榜单前最好的单模型在准确率上显著提升4.4%。

···

哈工大讯飞联合实验室持续深入认知智能领域前沿技术研究,尤其在机器阅读理解领域中不断取得技术突破,先后在机器阅读理解权威评测SQuAD 2.0中全球首次超过人类平均水平,获得对话型阅读理解评测CoQA和QuAC冠军多步推理阅读理解HotpotQA双赛道冠军多模态阅读理解评测VCR冠军

本次在科学常识推理阅读理解挑战赛OpenBookQA夺得冠军,并成为全球首个超过人类平均水平的单模型,使得机器能够进一步“融会贯通”,不仅能够有效地理解文本表面的意思,还能够通过融合外部知识来辅助进行推理,将机器阅读理解技术推向新的高度,推动实现机器“能理解会思考”的人工智能远大目标,有效助力“讯飞超脑2030计划”。

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多