Attention-based 图神经网络:综述

天承办公室 2023-10-23 发布于北京

展开全文

1. 基本信息

论文题目:Attention-based graph neural networks: a survey

作者:Chengcheng Sun, Chenhao Li, Xiang Lin, Tianji Zheng, Fanrong Meng, Xiaobin Rui, Zhixiao Wang

机构:中国矿业大学计算机科学与技术学院

https://link./article/10.1007/s10462-023-10577-2#Sec17

2. 摘要

在过去十年中,注意力机制在自然语言处理和计算机视觉方面都取得了令人印象深刻的性能。基于注意力的图神经网络允许我们通过局部或全局注意力自适应地聚合和更新表示,甚至是特征融合注意力。然而,由于这个领域发展迅速,目前还缺乏关于基于注意力的图神经网络的系统概述。

本文总结了基于注意力机制的GNN, 论文发表在2023年8月。其中主要贡献可以归纳如下:

提出了基于注意力的图神经网络的两层分类法。具体来说,上层揭示了基于注意力的图神经网络的三个发展阶段,包括图递归注意网络、图注意网络和Graph Transformer。下层则关注每个阶段的各种典型架构和细节。
全面总结了关于基于注意力的图神经网络的最新工作,弥补了这个热门方向的文献缺失。对于每个子类别,详细介绍了代表性工作,深入比较了各种模型的优势和劣势。
提出了基于注意力的图神经网络的开放问题和有前景的未来研究方向,以推进该领域的发展,为研究人员提供基于注意力的图神经网络的最新参考资料。

3.概览

本文首先从发展历史的角度将现有的基于注意力的图神经网络分成三个阶段,包括图递归注意网络(GRAN)、图注意网络(GAT)和GraphTransformer,如图1所示。

GRAN引入了注意力机制和RNN到图神经网络中。但是,它也受制于RNN固有的限制。
GAT不需要依赖于前一步的结果,可以并行操作。大多数GAT关注局部邻域内的节点,通过本地注意力区分不同邻居的重要性。但是,GRAN和GAT也存在一个共同的局限性:它们无法捕获远程依赖关系。
为了捕获远程消息,Graph Transformer可以通过全局注意力直接学习更高阶的图信息。

每个阶段都有其代表性和典型的方法。因此,下面进一步从架构角度对每个阶段的方法进行分类,如图2所示。

GRAN: 分为基于门控循环单元(GRU)和基于长短期记忆(LSTM)的两类。
同层GAT: 分为六个子类,即邻居注意力、高阶注意力、关系意识注意力、层次注意力、注意力采样/汇聚和超注意力。
跨层GAT: 分为五个子类,即多级注意力、多通道注意力、多视角注意力、时空注意力和时间序列注意力。
Graph Transformer:分为标准Transformer和GNNTransformer两类。

表1总结了每一个子类的代表性工作。

4. 图递归注意网络(GRAN)

4.1 GRU-attention

基于门控循环单元(GRU)的GRAN模型包括:

GGNN:在图上引入GRU和软注意机制,根据上下文关注对当前任务重要的节点。
GRNN:融合GRU和图信号处理,通过时间、节点、边三种门控机制控制信息流。
GaAN:使用卷积子网络为每个自注意头控制重要性,实现软门控。
GRAN:使用注意力GRU并行地生成图,避免RNN的顺序依赖性。

4.2 LSTM-attention

基于长短期记忆(LSTM)的GRAN模型包括:

JK-Net:将LSTM-Attention作为跳跃连接,在层间聚合表示。
GAM:使用LSTM和注意力随机游走学习图的表示。
GeniePath:设计自适应路径层,包含控制邻居范围和深度的模块。

这类模型也存在RNN的长期依赖性问题。

5. Intra-Layer GATs

Intra-Layer GATs在单层神经网络中引入了局部注意力到局部邻域。

5.1 邻居注意力(Neighbor Attention)

GAT中,每个节点都将自己的表示作为query,将其邻居节点的表示作为key和value,通过Feed-Forward Neural Network计算attention score:

其中是线性变换矩阵,表示第层中节点的特征,表示拼接操作。然后用softmax函数计算normalized attention coefficients:

5.2 高阶注意力(High-Order Attention)

高阶注意力通过获取基于路径的高阶邻居节点信息来捕获更全局的图拓扑结构。例如SPAGAN利用最短路径上的注意力机制,考虑从当前节点到其高阶邻居节点的一序列节点的影响。

5.3 关系意识注意力(Relation-Aware Attention)

关系意识注意力网络根据边的类型定义不同的关系:

适用于处理具有复杂关系结构的图数据。

5.4 层次注意力(Hierarchical Attention)

除了节点级别的注意力,层次注意力还考虑基于路径、关系或组的更高层次的注意力,以学习图的层次特征。

5.5 注意力采样/汇聚(Attention Sampling/Pooling)

对于大规模图,采样是一种有效的方法来选择代表性节点。基于注意力的采样如GAW利用注意力机制指导随机游走过程,以优化下游任务。

基于注意力的图汇聚如SAGPool使用自注意力区分应该保留和删除的节点,适用于图分类任务。

5.6 超注意力(Hyper-Attention)

超图通过超边表达多于两个节点之间的复杂关系。Hyper-SAGNN为具有各种超边的一般超图开发了新的GNN模型。HHGR使用加权和函数生成群组的注意表示,以捕获用户在组内和组间的交互。

Hyper-GAT引入注意模块增强高阶编码的表示学习能力。这类模型都是专门用于处理超图的注意力机制。

6. Inter-Layer GATs

Inter-Layer GATs从不同特征空间选择特征。

6.1 多级注意力(Multi-Level Attention)

多级注意力适应性地选择不同阶邻居节点的表示,获得更高阶的图信息。

6.2 多通道注意力(Multi-Channel Attention)

多通道注意力区分低频信息和高频信息,适应性地聚合不同频率的信号。

6.3 多视角注意力(Multi-View Attention)

多视角注意力构建多个具有不同拓扑结构的图,然后融合各视角的节点表示。

6.4 时空注意力(Spatio-Temporal Attention)

时空注意力可以处理动态图数据,融合不同时间片段的信息。

6.5 时间序列注意力(Time Series Attention)

时间序列注意力从时间序列数据中构建动态图,然后应用图注意力网络进行建模。

7. Graph Transformer

7.1 Standard Transformers

标准Transformer通过自注意力机制在图中传播节点表示,无需考虑节点之间的连接。

PAGAT使用全局注意层聚合分子图中的路径特征。
GT使用Laplacian特征作为节点的位置编码,将Transformer推广到任意图上。
Graphormer直接在图上构建Transformer,使用中心性、空间和边编码作为位置编码。

标准Transformer忽略了原始图的结构信息。

7.2 GNN Transformers

GNNTransformer由Transformer层和GNN层组成,兼顾全局和局部结构信息。

UGformer提出了两种图Transformer,在Transformer层前后应用GNN层。
HGT为大规模异构图设计了异构Mini-Batch采样和类型依赖参数。
GTN端到端地学习生成有用的元路径图。

讨论

GRAN引入了RNN进行图表示学习,但是也受制于RNN的固有约束。GRU-Attention和LSTM-Attention都基于局部注意力,因此很难获得远程邻居的信息。为了学习图中的长程模式,GeniePath引入了跳跃连接。一些GRU-Attention模型考虑节点对之间的边类型,而LSTM-Attention模型更偏向于基于路径的随机游走。

与GRAN相比,GAT可以并行计算,不依赖于先前的结果。几乎所有的Intra-layer GAT都使用局部注意力聚合和更新表示。高阶注意力GAT试图通过基于路径的策略获得远程信息。关系意识注意力GAT根据边类型定义不同的关系。层次注意力GAT通常在节点级定义注意力,在更高级别定义基于路径、关系或组的注意力。对于图分类任务,基于注意力的汇聚可以学习分层表示。为了将GAT应用于具有多种边类型的复杂图,关系感知注意力模型通常根据边类型定义不同的关系。而许多复杂图由超边构成,连接多个节点。Hyper-attention模型是为超图设计的。

与Intra-layer GAT不同,Inter-layer GAT通过特征融合注意力从不同特征空间提取有用的隐表示,而不仅仅是局部邻域。多级注意力、多通道注意力和多视角注意力都是特征选择操作。时空注意力和时间序列注意力可以处理具有时间属性的数据。

随着Graph Transformer的出现,GNN不需要通过堆叠网络层来获得远程信息。Graph Transformer可以通过全局注意力直接在网络内传播信息。