【原】ACL 2019 | 利用不完全知识库结合文本阅读提高问答系统效果

学术头条 2020-11-27

展开全文

论文题目：Improving Question Answering over Incomplete KBs with Knowledge-Aware Reader

论文作者：WenhanXiong，MoYu，ShiyuChang，XiaoxiaoGuo，WilliamYangWang

论文地址：https://www./anthology/P19-1417

本文提出了一个新的端到端问答（QA）模型，该模型通过结合不完整知识库的信息与一些文本检索信息，获得相关问题的答案。模型基于这样的假设：结构化知识库更容易查询以及从中获取的知识有助于非结构化文本的理解运用。模型首先从与问题相关的知识库子图中收集相关实体的知识，然后在隐空间中重述问题，用已获得的实体知识进一步阅读检索文档文本，最终聚合知识库中和文本中的证据信息来预测问题答案。模型数据集来源于WebQSP，论文中模型实现了以下目标，在不完整度不同的知识库条件下，稳定提升了对此QA任务的效果。

论文背景

知识库通常被看作问答系统的必要信息源，但是准确而完整的知识库的构建常常花费大量人力物力，面向开放领域的问答需要更多知识库的支持，而这些知识库往往不够完整。另外，互联网上大量非结构化文本可以很好的囊括所需的跨领域知识。因此，结合知识库与文本信息可以直接提高知识库信息的完整度。论文提出的端到端模型便是基于非完整的知识库与非结构化文本的聚合进而提升问答系统答案的准确预测。

图表 1: 来自WebQSP的真实例子。图上的问题无法通过知识库KB直接得到，但是利用KB中的知识（cam plays football），可以定位到文档（plays for）中进行查找，进而获得最终答案。

论文模型

为了建立一个可扩展的系统，该模型参考了Sun等提出的方法【1】并且只考虑一个子图对应一个问题的情况。子图由问题中主题实体利用PageRank算法【2】而得到，文档集由现有的文档获取器（chen等）【3】得到，文档中实体进行注释并与知识库实体进行链接，对于每个问题，模型将从包含所有知识库及文档实体的候选集中产生答案。模型组成主要有两个部分，基于图注意力的知识图谱阅读器和基于知识的文本阅读器。两者之间的联系如下：

图表 2：模型概图子图阅读器a)首先利用图注意力网络收集与问题相关的实体信息。学习到的实体知识将被传递给文本阅读器b)，从而进一步重述问题表示并对文本阅读器反馈信息进行编码。最终，文本信息与知识库子图信息结合预测问题的可能性答案。

论文实验

数据集：该实验基于WebQSP数据集。

Baseline和评估标准：通过结果表格对比发现，该模型阅读器达到的效果要优于baseline方法结果。SGReader+KAReader明显效果更好。

图表 3：在不同知识库完整性设定下与Baseline的结果对比，基于参考考虑，表中列出了信息覆盖率100%的知识库条件下的结果。SGReader列出了只用知识库（KB）信息情况下的结果。可以看到，在知识库不完全的情况下，SGReader的结果要优于先前的方法（KV-KB、GN-KB）。在结合了KAReader后，与其他优秀的KB-QA模型相比，论文模型结果在不完全知识库条件下依然有较大提升，这表明了文本阅读器的优势。

图表 4：为了研究每个KAReader组件的效果，表中列出低于30%完整性知识库设定条件下的分析。此外，发现论文中提出的条件门控机制非常重要。当使用标准的gate函数替换它时(见行w/o条件知识门)，性能甚至比没有知识增强的阅读器还要低，这表明论文提出的新的gate函数对于成功地进行知识感知文本阅读至关重要。

结果分析

该论文提出了一种新的QA模型，该模型通过结合信息不完整的知识库和文本文档来回答开放领域的问题，与以前的方法相比，该模型在知识库信息不完整的情况下，稳定提升了对WebQSP数据集的测试效果。结果表明：(1) 利用图注意力机制技术，可以在对知识库子图遍历一次的条件下，高效、准确地为知识库中的每个实体聚合问题相关的知识；(2)论文中设计的门控制机制在处理文本文档时可以成功地糅合已编码的实体知识。在未来的工作中，作者提出将把这个想法扩展到其他具有多模态证据信息的QA任务中。

参考文献

[1] Sun H, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[J]. arXiv preprint arXiv:1809.00782, 2018.

[2] Taher H Haveliwala. 2002. Topic-sensitive pagerank.In Proceedings of the 11th international conference on World Wide Web, pages 517–526. ACM.

[3] Danqi Chen, Adam Fisch, Jason Weston, and Antoine Bordes. 2017. Reading wikipedia to answer open-domain questions. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers, pages 1870–1879.

学术头条现招聘全职/实习编辑、志愿者，有意者请加学术君微信AMiner308。