【原】ACL 2019论文| 为知识图谱添加注意力机制

学术头条 2020-11-27

展开全文

注意力机制（Attention）是近些年来提出的一种改进神经网络的方法，在图像识别、自然语言处理和图网络表示等领域都取得了很好的效果，可以说注意力机制的加入极大地丰富了神经网络的表示能力。

论文原文：

https:///pdf/1906.01195.pdf

论文背景

知识图谱（Knowledge Graph）可以用结构化的方式来描述真实世界的知识，如一个三元组（小罗伯特·唐尼，国籍，美国）便能够说明小罗伯特·唐尼的国籍是美国这样一件事实。然而这样的结构化表示并不是很利于计算，因而近些年来知识图谱表示学习受到了广泛的研究。

ConvE[1]和ConvKB[2]等基于卷积神经网络（CNN）的表示学习方法可以为知识图谱生成更丰富和表现力更强的向量表示，也取得了很好的实验效果。但是这些模型仅仅独立地表示每一个三元组，而忽略了三元组周围的邻居中蕴含的复杂语义信息，这在一定程度上限制了这类模型的性能。为此，今天我们要介绍的这篇论文将注意力机制引入到了每个三元组的邻居中，每个实体的表示都与其邻居息息相关。值得注意的是，传统的表示学习模型在进行实体链接预测时，是没有解释性的，仅仅可以给出结果。但是加入了注意力机制后，我们便可以使用每个邻居的注意力权重为模型的预测结果做出一定的解释。

论文模型

本篇论文的模型大致可以分为两部分，第一部分为加入注意力机制的编码器（Encoder），第二部分为解码器（Decoder）。论文的重点和主要贡献便是第一部分，加入注意力机制的编码器。

该模型的注意力机制是基于之前的图的注意力网络（GAT[3]）,GAT是GCN[4]的一个改进版本，它解决了GCN平等地从邻居中获取信息的缺点。更详细的说，GAT会为一个节点的每条边都学习一个注意力权重，然后按照这些权重从邻居中获取信息：

在上式中，alpha_ij即是连接i和j两个节点的边的权重，N_i是i节点的邻居节点集合，W为一个线性映射矩阵，最终该式输出的便是i节点的邻居化表示。

image (1).png

虽然GAT模型在传统的网络表示学习中很成功，但是还是不太能直接地应用到知识图谱中，因为它显然地忽略了边所蕴含的信息。在知识图谱中，一个实体在链接不同的边时往往有着不同的含义，如上图所示，Christopher Nolan在链接不同的边时可以有兄长或导演的含义。因而该篇论文在GAT的基础上进行了改进，加入了关系的信息。对于每一个三元组，学习一个表示如下：

其中h_i，h_j和g_k分别为头尾实体以及关系的向量表示，W_1为线性变换矩阵。之后经过一个LeakyRelu非线性层，可以得到：

image (2).png

之后可以计算每个三元组的注意力权重：

image (3).png

这里N_i为实体i的邻居节点，R_in为链接实体i和n的关系。此外该模型还加入了multi-head attention机制，可以使学习过程更加稳定，并且学习更多的邻居信息。最终每个实体的邻居表示为：

这里M便是代表有M个独立的注意力计算机制，对于关系向量，原论文仅将其乘以一个线性变换矩阵，未再加入注意力机制。

此外，在学习实体的邻居表示时，我们损失了实体初始的向量表示，因而在最终输出之前，会将初始的向量表示乘以一个变换矩阵加实体的邻居表示中。最终模型图如下，其中黄色的圆圈代表初始的实体向量，绿色圆圈代表初始的关系向量。原作者的模型图画的有些不清晰明了，若要详细了解还需阅读论文：

论文使用ConvKB作为模型的解码器（Decoder），对于每一个三元组，在上述编码器得到实体和关系向量的基础上，做出如下打分：

其中omega^m为第m个卷积核，模型最终使用soft-margin loss进行训练。

论文实验

该论文在FB15K-237、WN18RR、NELL-995和Kinship等数据集上进行了链接预测实验，实验结果如下所示。从表中可以看出，在多数情况下该模型可以达到目前最佳的实验效果，这说明融合邻居信息的表示能够很好的提升模型的性能，注意力机制对于知识图谱也是很有效果的。

参考文献

[1] Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2d knowledge graph embeddings[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

[2] Nguyen D Q, Nguyen T D, Nguyen D Q, et al. A novel embedding model for knowledge base completion based on convolutional neural network[J]. arXiv preprint arXiv:1712.02121, 2017.

[3] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.

[4] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.