2022年7月25日,哈工大讯飞联合实验室(HFL)夺得科学常识推理阅读理解挑战赛OpenBookQA冠军,以准确率94.2%的显著优势大幅刷新榜单最好成绩,成为全球首个超越人类平均水平(91.7%)的单模型。 OpenBookQA挑战赛榜单 OpenBookQA挑战赛OpenBookQA是由艾伦人工智能研究所(AI2)推出的科学常识推理阅读理解数据集,旨在评估机器对常识的理解和应用能力。该挑战赛吸引了众多知名高校和研究机构的关注,例如南京大学、香港中文大学、MSRA、斯坦福大学、谷歌、阿里巴巴等。 OpenBookQA问题示例 夺冠系统面对此类问题,即使对于人类也需要掌握一定的外部常识知识后才能正确作答。那么机器是如何回答此类需要常识推理的问题呢? 哈工大讯飞联合实验室提出的X-Reasoner系统分别从知识检索和阅读理解两个角度解决科学常识推理问题。知识检索模块负责以问题和选项为线索,从科学知识库中找到与问题最相关的知识。阅读理解模块结合检索出的知识、问题和选项进行推理,给出最终答案。依托以上技术,X-Reasoner不仅在性能上大幅刷新榜单最好成绩,同时还成为了首个超过人类平均水平的单模型。 X-Reasoner模型框架
只有检索出了准确的问题相关知识,才能根据相关知识做出有效推理。因此知识检索作为系统的第一步,其准确性至关重要。X-Reasoner中提出了一种基于SentenceBERT和RocketQA两种检索模型的复合交互式检索方案。通过重打分、重排序等手段,对两种模型在同一问题选项上的检索结果进行重要性的重新估计,综合挑选出最重要的10条知识作为检索结果送入阅读理解模块。
在获得精确的相关知识后,下一步将根据知识进行推理。X-Reasoner采用了联合知识和问题的方式,让模型进行隐式推理,给出一个答案相关的信息增强表示。该表示隐含了利用相关知识和问题所能推理得到的信息,与选项交互表示一起送入阅读理解模型进行计算。
人类在回答选择题的过程中,如果对所选答案不确定,通常会采取对比不同选项的策略。例如,排除掉最不可能是答案的三个选项,那么唯一剩下的选项就是正确答案。X-Reasoner的一个特点便是模仿了人类的这种答题方式。X-Reasoner一次性对问题、四个选项以及相关的科学常识进行编码,并通过注意力机制进行交互,获得了对比选项回答问题的能力。 通过以上三个创新点的结合,X-Reasoner大幅提升了常识推理的效果,相比榜单前最好的单模型在准确率上显著提升4.4%。 ··· 哈工大讯飞联合实验室持续深入认知智能领域前沿技术研究,尤其在机器阅读理解领域中不断取得技术突破,先后在机器阅读理解权威评测SQuAD 2.0中全球首次超过人类平均水平,获得对话型阅读理解评测CoQA和QuAC冠军,多步推理阅读理解HotpotQA双赛道冠军,多模态阅读理解评测VCR冠军。 本次在科学常识推理阅读理解挑战赛OpenBookQA夺得冠军,并成为全球首个超过人类平均水平的单模型,使得机器能够进一步“融会贯通”,不仅能够有效地理解文本表面的意思,还能够通过融合外部知识来辅助进行推理,将机器阅读理解技术推向新的高度,推动实现机器“能理解会思考”的人工智能远大目标,有效助力“讯飞超脑2030计划”。 |
|