ReFactor GNN：从消息传递角度重新审视FMs

深蓝学院 2023-01-06 发布于北京

展开全文

分享嘉宾 | 陈艺虹

文稿整理 | William

Knowledge Graph Completion(KGC)

知识图谱一般会有多个节点，包括性别、国家等各种各样的节点(也可理解为实体)，节点之间会有不同的关系，可以通过其他的一些节点预测出当前节点的其他信息。恢复这些信息是将所有的候选信息进行排序，优化如下损失函数，再按最大似然概率得到推荐信息。

Factorization-based Models vs Graph Neural Networks for KGC

知识图谱补全一般有两类模型：

第一种是factorization-based models，如图1左边所示。非常简单的几个矩形合在一起，竖着的长方形代表subject in bedding，横着的长方形代表object in bedding，蓝色的则是relation in bedding，将各个之间的关系进行嵌入后内积相乘，即可得到结果。值得注意的是K表示隐藏向量长度。

该类模型的推理效率非常高，在一些常用的计算平台上部署起来非常简单。最大的问题若一个新的节点在当前图谱里找不到对应节点，则模型无法使用。

第二类是graph neural networks for KGC，如图1右边所示。直接是message图，通过不同节点的计算流图画出方向，不同的颜色代表不一样的类型。有两个可以自行设计的地方：

①接受信息的是可学习的方式，可以设计几个特征学习层

②可以利用求和或平均池化等操作集合信息到中央节点

该类模型的优点是即使存在一个新的节点，也能进行预测，此外还会计算考虑节点信息以及neighborhood信息。但问题在于预测的效果不好，而且很难去扩展到比较深的图神经网络。

图1 知识图谱补全的两种类型

Implicit Message-Passing within FMs

FM的优化过程会包含一些隐式的message传递，但如果把优化过程加入到表达式里面，可以看到message传递后梯度优化的过程：当开始优化时，从邻居节点拿属性进行更新中心节点，然后所有邻居节点都会更新，会出现向外的neighborhood(表示为+)和向内的neighborhood (表示为-)，同时全局正则化也会计算相加。拿如果进行第二次梯度更新，就会得到类似的第二层message passing，以此类推，如图2所示。

图2 FMs的隐式消息传递

The ReFactor GNN

每一个guardian decent其实包含了一个message passing layer，那可以创建一个新的图神经网络来捕捉这种消息传递机制，不同的方向会有不同的消息，重要的是不同的边的类型会被考虑。如果把factorization best models的梯度下降优化过程实现成一个message passing layer，可以直接把指针分解的梯度优化过程写入message passing lay里面，就可实现了一个message part。

优化训练如图3所示，橙色区域代表运算的memory，当需要从memory里面读取相应的节点，可以直接抽取再送进message passing layer，然后进行更新，得到下一层。当得到结果的时候，只要把它写回到memory里面。如果下一轮某一条边或某一个节点的更新需要当前节点状态的时候，就可以直接提取，而不用从零去重新计算，即可实现计算的高效性。

图3 优化训练框图

计算效率高有如下作用：

(1)可以用一个储存神经网络去逼近一个张量分解模型的性能

(2)可以将其扩展到更深层网络，提高模型性能

(3)使得添加层数变得比较简单，global regulation也比较好

(4)可以用到其他的知识图谱以外的学习上

Experiments over Inductive KGC

先简单介绍实验里面用到的一些baseline：

第一个是完全不做pretrain，意义在于能有效的比较得出不同节点特征的有效性

第二个是一些Rule-based的方法，比如Neural-LP，DRUM，Rule-N

第三个是重点的图神经网络模型，能检测不同的层数会如何去影响它的性能

第四个是Pairwise的图神经网络，比如GralL，LNBFNet

将只有random feature和只有meaningful的texture feature的文本信息送进预训练的语言模型，将其输出来作为节点特征，其余模型的操作一样，这些网络最后的性能表现如图4所示。

图4 模型性能对比

可以发现预训练模型对random feature的性能有0.215，对有意义的texture feature有0.242，差别不是很大。图神经网络将文本信息用的淋漓尽致，当是random feature时只有0.33，性能比较差，但当输入为有意义的texture feature，则性能可以达到0.8，不顾图神经网络的层数与性能没有太多的关系。ReFactor的性能对比与图神经网络差不多，不过在random feature会比图神经网络高0.35左右。GralL是第一个开始做该方法的测试，性能表现不错。