1. 基本信息论文题目:Attention-based graph neural networks: a survey 作者:Chengcheng Sun, Chenhao Li, Xiang Lin, Tianji Zheng, Fanrong Meng, Xiaobin Rui, Zhixiao Wang 机构:中国矿业大学计算机科学与技术学院 https://link./article/10.1007/s10462-023-10577-2#Sec17 2. 摘要在过去十年中,注意力机制在自然语言处理和计算机视觉方面都取得了令人印象深刻的性能。基于注意力的图神经网络允许我们通过局部或全局注意力自适应地聚合和更新表示,甚至是特征融合注意力。然而,由于这个领域发展迅速,目前还缺乏关于基于注意力的图神经网络的系统概述。 本文总结了基于注意力机制的GNN, 论文发表在2023年8月。其中主要贡献可以归纳如下:
3.概览本文首先从发展历史的角度将现有的基于注意力的图神经网络分成三个阶段,包括图递归注意网络(GRAN)、图注意网络(GAT)和GraphTransformer,如图1所示。
每个阶段都有其代表性和典型的方法。因此,下面进一步从架构角度对每个阶段的方法进行分类,如图2所示。
表1总结了每一个子类的代表性工作。 4. 图递归注意网络(GRAN)4.1 GRU-attention基于门控循环单元(GRU)的GRAN模型包括:
4.2 LSTM-attention基于长短期记忆(LSTM)的GRAN模型包括:
这类模型也存在RNN的长期依赖性问题。 5. Intra-Layer GATsIntra-Layer GATs在单层神经网络中引入了局部注意力到局部邻域。 5.1 邻居注意力(Neighbor Attention)GAT中,每个节点都将自己的表示作为query,将其邻居节点的表示作为key和value,通过Feed-Forward Neural Network计算attention score: 其中是线性变换矩阵,表示第层中节点的特征,表示拼接操作。然后用softmax函数计算normalized attention coefficients: 5.2 高阶注意力(High-Order Attention)高阶注意力通过获取基于路径的高阶邻居节点信息来捕获更全局的图拓扑结构。例如SPAGAN利用最短路径上的注意力机制,考虑从当前节点到其高阶邻居节点的一序列节点的影响。 5.3 关系意识注意力(Relation-Aware Attention)关系意识注意力网络根据边的类型定义不同的关系: 适用于处理具有复杂关系结构的图数据。 5.4 层次注意力(Hierarchical Attention)除了节点级别的注意力,层次注意力还考虑基于路径、关系或组的更高层次的注意力,以学习图的层次特征。 5.5 注意力采样/汇聚(Attention Sampling/Pooling)对于大规模图,采样是一种有效的方法来选择代表性节点。基于注意力的采样如GAW利用注意力机制指导随机游走过程,以优化下游任务。 基于注意力的图汇聚如SAGPool使用自注意力区分应该保留和删除的节点,适用于图分类任务。 5.6 超注意力(Hyper-Attention)超图通过超边表达多于两个节点之间的复杂关系。Hyper-SAGNN为具有各种超边的一般超图开发了新的GNN模型。HHGR使用加权和函数生成群组的注意表示,以捕获用户在组内和组间的交互。 Hyper-GAT引入注意模块增强高阶编码的表示学习能力。这类模型都是专门用于处理超图的注意力机制。 6. Inter-Layer GATsInter-Layer GATs从不同特征空间选择特征。 6.1 多级注意力(Multi-Level Attention)多级注意力适应性地选择不同阶邻居节点的表示,获得更高阶的图信息。 6.2 多通道注意力(Multi-Channel Attention)多通道注意力区分低频信息和高频信息,适应性地聚合不同频率的信号。 6.3 多视角注意力(Multi-View Attention)多视角注意力构建多个具有不同拓扑结构的图,然后融合各视角的节点表示。 6.4 时空注意力(Spatio-Temporal Attention)时空注意力可以处理动态图数据,融合不同时间片段的信息。 6.5 时间序列注意力(Time Series Attention)时间序列注意力从时间序列数据中构建动态图,然后应用图注意力网络进行建模。 7. Graph Transformer7.1 Standard Transformers标准Transformer通过自注意力机制在图中传播节点表示,无需考虑节点之间的连接。
标准Transformer忽略了原始图的结构信息。 7.2 GNN TransformersGNNTransformer由Transformer层和GNN层组成,兼顾全局和局部结构信息。
讨论GRAN引入了RNN进行图表示学习,但是也受制于RNN的固有约束。GRU-Attention和LSTM-Attention都基于局部注意力,因此很难获得远程邻居的信息。为了学习图中的长程模式,GeniePath引入了跳跃连接。一些GRU-Attention模型考虑节点对之间的边类型,而LSTM-Attention模型更偏向于基于路径的随机游走。 与GRAN相比,GAT可以并行计算,不依赖于先前的结果。几乎所有的Intra-layer GAT都使用局部注意力聚合和更新表示。高阶注意力GAT试图通过基于路径的策略获得远程信息。关系意识注意力GAT根据边类型定义不同的关系。层次注意力GAT通常在节点级定义注意力,在更高级别定义基于路径、关系或组的注意力。对于图分类任务,基于注意力的汇聚可以学习分层表示。为了将GAT应用于具有多种边类型的复杂图,关系感知注意力模型通常根据边类型定义不同的关系。而许多复杂图由超边构成,连接多个节点。Hyper-attention模型是为超图设计的。 与Intra-layer GAT不同,Inter-layer GAT通过特征融合注意力从不同特征空间提取有用的隐表示,而不仅仅是局部邻域。多级注意力、多通道注意力和多视角注意力都是特征选择操作。时空注意力和时间序列注意力可以处理具有时间属性的数据。 随着Graph Transformer的出现,GNN不需要通过堆叠网络层来获得远程信息。Graph Transformer可以通过全局注意力直接在网络内传播信息。 未决问题和未来研究方向
|
|