【原】【ACL 2019】将文本建模为关系图用于关系提取

学术头条 2020-11-27

展开全文

本文提出了一个端到端的关系提取模型GraphRel，使用GCN和Bi-LSTM编码器学习抽取命名实体及关系，考虑了线性和依赖结构，以及文本的所有单词对之间的隐式特征；通过端到端的实体、关系联合建模，同时对所有实体对进行预测；也考虑到了实体和关系之间的相互作用。

论文原文：https：//tsujuifu.github.io/pubs/acl19_graph-rel.pdf

论文背景

提取实体和语义关系是从非结构化文本构建知识结构的核心任务，传统的流水线方法通常是先进行命名实体识别然后对实体关系进行预测，联合学习实体识别和关系抽取能获得更好的效果，但这些联合模型需要进行大量的特征工程。已有的神经网络方法都不是端到端的联合模型，他们假设已知命名实体并预期现实世界的命名实体识别会导致模型表现显著降低。

论文模型

GraphRel包括两个阶段的预测，第一个阶段使用Bi-RNN和GCN提取顺序和区域依赖词特征，再通过这些单词特征预测每个单词对的关系和所有单词中的实体。第二个阶段为每一个关系建立一个关系图，再使用GCN使这些关系成为一个整体，从而考虑实体与关系之间的相互作用。

本文使用LSTM作为Bi-RNN单元，对于每一个单词，将其词嵌入与POS嵌入结合起来作为初始特征

其中h^0_u表示单词u的初始特征，Word(u)和POS(u)分别表示单词u的词嵌入和POS嵌入。

由于原始的数据句子没有图结构，本文使用句法依存分析来构建依存关系树，然后使用句子的依存关系树作为输入句子的邻接矩阵，再使用GCN抽取局部依赖特征，需要注意的是，最初的GCN是为无向图设计的，为了同时考虑输入和输出的词特征，这里使用的是[1]的Bi-GCN。

在得到词特征之后就要进行对实体和关系的预测，这里首先移除了依存关系树中的所有边，然后对所有单词对进行预测

对于每一个关系r，可以学到权重矩阵W^1_r、W^2_r、W^3_r，从而计算出关系得分S，再对每一个S(w1,r,w2)应用softmax，从而得到(w1,w2)每种关系的概率P_r(w1,w2)。

第一阶段提取出的实体和关系相互之间没有影响，为了考虑命名实体和关系之间的相互作用，并考虑文本的所有单词对之间的隐含特征，我们提出了一种新的第二阶段关系加权GCN用于进一步提取，这一过程可以表示为：

其中P_r(u,v)表示边的权重（单词u与单词v的关系为r的概率），W_r和b_r表示GCN在r关系下的权重，V和R分别是所有单词和所有关系的集合。此处的Bi-GCN进一步考虑了关系加权传播，并为每个单词提取了更多足够的特征。然后就可以进行命名实体识别和关系分类来实现关系抽取了。

论文实验

本文在NYT[2]和WebNLG[3]数据及上对GraphRel进行了评估

结果表明，本文提出的的方法优于以前的工作3.2％和5.8％，刷新了关系提取的SOTA。同时，从一些案例也可以看出第二个阶段的GCN的确可以达到抽取出更多信息的目的。

参考文献：

[1] Diego Marcheggiani and Ivan Titov. 2017. Encoding sentences with graph convolutional networks for semantic role labeling. In Proceedings of EMNLP.

[2] Sebastian Riedel， Limin Yao， and Andrew McCallum. 2010. Modeling relations and their mentions without labeled text. In Proceedings of ECML-PKDD.

[3] Claire Gardent， Anastasia Shimorina， Shashi Narayan， and Laura Perez-Beltrachini. 2017. Creating training corpora for nlg micro-planners. In Proceedings of ACL.

学术头条已建立微信交流群，想进群的同学请加学术君微信：AMiner308，记得备注：名字+单位/学校噢！