分享

WWW 2023 | 多方面的异构图数据增强

 天承办公室 2023-09-26 发布于北京

 今天介绍的是来自中国科学院大学大学和蚂蚁集团作者发表在World Wide Web 2023上的一篇论文:

Multi-Aspect Heterogeneous Graph Augmentation

图片

    01 前言                            

    数据增强作为一种提高模型泛化能力和性能的有效策略,在计算机视觉和自然语言处理等各种领域得到了广泛的应用。数据增强的核心思想是设计各种增强策略,基于现有数据生成新的可信数据,而不需要额外的真实标签,以提高现有数据的数量或质量。由于图学习通常面临着特征数据的不完整、结构化等诸多难题,数据增强为帮助图学习方法解决上述问题提供了一个很好方案。然而,由于图数据的不规则性,在计算机视觉和自然语言处理中经常使用的结构化数据增强操作,这些操作往往不能应用于图学习模型。此外,不同的信息模式和图属性为图数据的增强提供了更广泛的设计空间。因此,越来越多的研究者开始关注图的数据扩充。
    近年来,关于图数据增强的工作越来越多。尽管它们取得了成功,但目前所有的数据增强方法都是为同构图而设计的,从来没有研究过异构图上的数据增强。带有多种类型的节点和边连接的异构图在现实世界的场景中无处不在。它们通常比同构图包含更全面的信息和更丰富的语义。将同构图的增强方法直接应用于异构图会导致类型信息和语义信息的丢失。此外,可能会引入噪声,损害了图学习模型的性能。因此,为异构图开发一个特殊的数据增强框架是很重要的。
    为了有效地进行异构图的数据增强,作者分析了异构图学习模型所面临的问题。一方面,除了图的幂律分布引起的数据倾斜外,由于不同节点类型的分布变化很大,不同节点类型也存在极大的不平衡。即使是相同类型的节点,度的分布也不是均匀的。因此,作者认为不同节点之间和不同类型节点之间的连接不平衡限制了异构图学习模型的性能。特别是连接数量有限的节点和节点类型不能提供可靠的信息,成为异构图表示学习的瓶颈。
    另一方面,描述所涉及的节点类型之间复合关系的元路径已被广泛用于描述异构图的不同语义。例如元路径论文-作者-论文(PAP)表示两篇论文由同一作者撰写,而论文-主题-论文(PSP)表示两篇论文属于同一主题。尽管元路径通过为异构图学习模型提供了清晰的指导,从而提高了模型的性能。然而,原始的元路径通常是通过一些预先设置的规则从复杂的真实世界的交互系统中提取出来的。由于不可避免的错误的数据收集,它们往往是有噪声的,甚至是不完整的。因此,直接从图中获取基于元路径的节点关系会导致结果的不准确,并影响异构图模型的性能。
    为了解决上述挑战,作者开发了一个新的多方面异构图增强框架(MAHGA),该框架包含了数据增强策略的两个方面:结构级增强和元路径级增强。结构级增强侧重于节点的局部结构,目的是扩充邻居信息。设计了一个关系感知的条件变分自动编码器来学习给定中心节点的特征和邻居节点类型的条件分布。通过从学习到的分布中采样,可以生成邻域特征来增强具有稀疏特征连接的节点和节点类型。元路径级的增强使用不同的元路径信息,并同时使用图作为生成器来进行元路径内部和元路径之间的增强。Graphon是一个确定边概率矩阵的函数,它重构了图的底层拓扑结构,因此它非常适合于处理元路径方面的问题。作者为预先定义的元路径构造了元路径图。在元路径内部的增强过程中,作者反复从图中进行采样,为每个元路径生成几个新的元路径图。MAHGA通过训练基于生成的和原始的元路径图的异构图学习模型,改进了异构图学习模型的泛化性,减轻了由于图错误和不完全性而导致的元路径不准确性。在元路径的增强过程中,作者通过混合不同的元路径可达图,生成许多的增强图来合成新的元路径。更重要的是,由增强的图所决定的新元路径是隐式的,这意味着不需要额外的域知识来削弱它们的节点类型序列。综上所述,本文的总体贡献如下:
    1. 作者分析了异构图学习模型所面临的常见挑战,并将其作为指导设计异构图的有效数据增强策略。
    2. 作者提出了MAHGA,这是探索异构图上的数据增强的首要工作。MAHGA构造了一个具有关系感知能力的条件变分自动编码器,并利用元路径图来实现结构级和元路径级的增强。
    3. 作者在三个不同的数据集上进行了广泛的实验,以显示MAHGA的增强框架在改进主流异构图学习模型方面的有效性。实验结果表明,目前最先进的同构图增强方法不能很好地适应异构图。相比之下,作者的增强框架为异构图学习模型产生了显著的提升效果。

    02 方法                             
    在本节中将介绍MAHGA,其总体结构如图1所示。MAHGA包含结构级别的数据增强和元路径级别的数据增强,RCVAE可以生成邻居的合成特征来扩充中心节点的局部结构。在元路径级别的数据增强中,首先为每个预先设置的元路径构造一个元路径图。然后,作者估计了这些元路径图,并进行了元路径内和元路径间的增强。对于元路径内部的增强,使用图来消除伯努利分布,并对几个合成的元路径图进行重新采样,以增强当前元路径的语义信息。对于元路径间的增强,将不同元路径的元路径图进行混合,生成可以视为新的元路径子图。然后,通过从上述新的图中采样,生成新合成的元路径图,以增强元路径之间的语义信息。
    图片
    图1 MAHGA的总体框架
    2.1 结构级增强
    结构级的数据增强的目的是提供更多的数据来增强节点和节点类型,从而缓解异构图数据的稀疏性和不平衡性问题。直观的解决方案是有策略性地选择一些节点作为中心节点的新邻居,以增强中心节点的局部结构。然而,这种方法有两个缺点:1.好的节点选择策略是模糊的。一旦选择了不合适的节点作为新邻居,就会对异构图学习模型引入额外的意外噪声,并影响模型的性能。2.该方法只能选择异构图中已经存在的节点作为新的邻居进行扩充。但是,对于中心节点,在异构图中可能没有可以选择的合适的节点。因此,为了克服上述限制,作者设计了一个生成模型来学习邻居的特征分布,并直接从分布中采样新邻居,而不是选择现有节点作为新邻居。接下来,将详细阐述生成模型和数据增强过程。
    具有关系感知能力的条件变分自动编码器:在异构图中,不同类型节点的特征都在不同的特征空间中。因此,为了准确地建模邻居节点的特征分布,需要同时考虑中心节点的特征和邻居节点的类型。基于上述动机,作者利用条件变分自动编码器(CVAE)的思想,构建了关系感知的条件变分自动编码器(RCVAE)作为生成模型。在形式上,考虑到中心节点   的特征 和关系类型嵌入  有:
    其中  是中心节点  的邻居特征,    分别为VAE的变分参数和生成参数。  是由先验分布产生的潜在变量  产生的。由于关系类型意味着边两端节点的类型,本文采用可学习的关系类型嵌入作为条件。然后,证据下界(ELBO)可以写成:  
          预训练和增强:一般来说,对于一个特定的下游任务,可以使用最大似然估计来估计一个异构图学习模型的参数。它优化了以下似然函数:
      
    其中,  是下游任务的类标签。  表示训练数据中的第  个数据点。由于MAHGA的增强框架使用原始的异构图数据来训练RCVAE,并使用RCVAE来生成合成的邻域特征  来进行增强,因此等式中的似然函数可重写如下:
      
    根据贝叶斯规则,可以进一步分解等式,进一步分解  作为两个后验概率的乘积: 
    其中,    分别是由异构图学习模型和RCVAE近似的概率分布。通过分解步骤,解耦了RCVAE和异构图学习模型的训练过程。因此,首先可以预训练RCVAE,然后应用它来进行增强。特别地,在训练前阶段,从原始的异构图提取相邻的三重特征  到训练RCVAE。在增强阶段,使用RCVAE来生成合成的邻域特征,并将其与中心节点的原始特征结合起来,作为中心节点的增强特征。最后,利用增广特征来训练各种异构图学习模型,以提高这些模型的性能 。
    2.2 元路径级增强
    元路径级的增强旨在缓解基于元路径的采样(元路径内增强)中的不完全性和错误问题,同时在没有额外领域知识的情况下生成新的合成元路径(元路径间增强)。然而,元路径比邻域关系更复杂,因为不同的元路径包含不同的节点类型,而且它们的长度也不同。设计一种直接增强元路径的策略是很苦难的。因此,使用基于元路径的邻居将元路径转换为元路径可到达的图,并估计这些图。然后,作者设计了在图上操作的增强策略,以间接地增强元路径,因为图可以通过建模元路径图的潜在结构来维护元路径的语义。接下来,将详细说明更多关于元路径级增强的细节:
    Graphon Estimation:Graphon是一种非参数图模型,它表征观察到图并重构其潜在图结构。在数学上,Graphon是一个二维对称的Lebesgue函数,定义为  。由于Graphon没有一个固定形式的表达式,如何从观察到的图中稳健地学习图成为一个棘手的问题。现有的方法主要依靠图的弱正则性来解决上述问题,阶跃函数学习方法有很多,如排序平滑方法SAS、随机块近似SBA、通用奇异值阈值算法USVT等。在本文中,作者采用了结构化的Gromov-Wasserstein barycenters方法SGWB,因为它是一种具有可靠理论保证的并具有计算效率的算法。
    更具体地说,我们估计二阶格罗莫夫沃瑟斯坦距离的平方如下: 然后,作者通过最小化观测图与目标图的阶跃函数之间的格罗莫夫-瓦瑟斯坦距离来学习最优阶跃函数:  其中,  是观察到的图的数量,并且  是第  个观测图的邻接矩阵。上述问题有一个封闭形式的解如下:
      
    其中,    个图的节点数量。在获得图  后,可以进行元路径内和元路径间的增强。
    元数据内部增强:元路径内增强使用估计的图来增强单个元路径。具体来说,对于每个元路径,它直接从图中采样新的合成元路径可达的图。所有生成的合成图都引用了当前元路径的语义信息。通过在合成图上训练异构图学习模型,路径内增强可以有效地提高模型的泛化能力,减轻数据不完全性和错误的注入。形式上,对于元路径  ,合成元路径图  的采样过程可表述如下: 
    其中,  是节点数量,  是增强的元路径可达图。
    元数据间增强:元路径间增强的核心思想是基于预先定义的元路径创建新的合成元路径。作为对元路径图的建模,它可以表示相应的元路径。因此,直接生成新的合成元路径的图,以避免显式地调整节点类型序列。具体地说,采用混合技术来插入预填充的元路径图,以生成新的图。每个增广图代表一个隐式的合成元路径。然后,从增广图中采样元路径图,以训练异构图学习模型。增强过程可以表示如下: 
    其中,  是一种能够控制来自不同元路径的权重系数。    分别是增广图和元路径图。
    数据增强:元路径内部和元路径间的增强都生成新的合成元路径图作为增强数据。对于需要元路径图的异构图学习模型,可以直接在合成图上训练模型。否则,将合成图中的边视为新的边类型,并将它们添加到原始的异构图中,然后在增广异构图上训练模型。

    03 实验                              
    3.1 Performance Comparison
    作者对三个广泛使用的异构图数据集进行了实验。数据集统计数据汇总见表1。
    图片
    表1 数据集详细信息
    作者使用节点分类作为下游任务,来评估不同的图增强方法对主干模型的性能的影响。结果如表2所示。从表格中,作者做了以下观察:首先,虽然一些同构图增强方法可以提高模型在特殊异构数据集上的性能,但没有一个方法可以应用于所有模型,对所有数据集产生积极的影响。特别是在ACM数据集上,所有的增强方法都不能超过MAGNN,甚至会降低其性能。结果表明,同构图增强方法不能生成满意的增强数据。因此,将同构图的增强方法直接应用于异构图并不是一个很好的解决方案,有必要为异构图设计一个专门的增强框架。
    其次,在大多数情况下,节点的增强方法比边增强方法和图增强方法的性能更差。一些典型的非分散增强方法,如LA,甚至严重损害了骨干模型的性能。作者将结果归因于节点集中式增强方法更具隐粒度,并且更关注图的局部信息。然而,在异构图中,局部信息比同构图中更丰富,因为不同类型的节点具有不同的特征空间,其局部结构也不同。节点集中式同构图增强方法没有充分考虑异构图的上述特征在增强过程中的节点类型改变,使它们不能与同构图的效果相同。
    图片
    表2 采用不同主干模型和图增强方法的节点分类结果
    最后,作者的增强框架MAHGA在所有主干模型和数据集上显著且一致地优于其它所有基线方法。一般来说,MAHGA的Micro-F1相对于原始骨干模型的性能提高,证明了MAHGA的有效性和优越性。MAHGA通过从网络模式和元路径方面设计复杂的增强策略,将异构图的异构性和语义引入到增强过程中,有助于生成更好的增强数据,以提高异构图学习的性能。
    3.2 Ablation Study
    为了验证MAHGA的不同增强策略的有效性,作者设计了三种不同版本的MAHGA来进行消融实验。每种变体只能使用一种增强策略。例如:'Structure-level'意味着MAHGA的这个变体只使用结构级增强策略。实验结果如表3所示。正如表中观察到的,MAHGA的所有增强策略都有积极的影响,它们提高了骨干模型的性能。然而,对于不同的主干模型和数据集,不同的增强策略的效果是不同的。例如,元路径级增强对MAGNN和HGT的性能提高不如结构级增强那么显著,而元路径增强对HAN和HPN的性能提高优于结构级增强。这是因为MAGNN和HGT需要完整的路径信息,包括沿着元路径的中间节点,但是HAN和HPN显式地利用了基于元路径的邻居。尽管如此,MAHGA仍然优于其它基线方法,这表明不同的增强策略从不同的方面增强了异构图,并将它们结合在一起可以进一步提高增强效果。
    图片
    表3 ACM数据集上的消融结果
    3.3 Visualization
    为了更直观地进行比较,并进一步展示作者提出的增强框架的有效性,选择了HAN作为骨干模型,并在三个数据集上进行可视化任务。在这里,作者利用t-SNE将HAN学习到的节点表示投影到一个二维空间中。实验结果如图2所示。'Yelp_ori'表示直接在Yelp数据集上训练HAN,而'Yelp_aug'表示作者在HAN的训练中使用MAHGA。从可视化上可以看出,当采用MAHGA训练HAN时,学习到的节点表示具有较高的类内相似性,不同类之间的边界更清晰。证明MAHGA能很好地增强骨干模型。
    图片
    图2 利用t-SNE对三个数据集上的HAN节点表示进行二维可视化

    04 结论                              
    在本文中,作者研究了在节点类型和链路连接类型不同的异构图上的数据增强问题。不幸的是,现有的图增强方法只为同构图设计,它们不能在异构图上运行良好,因为它们忽略了后者的类型信息和丰富的语义。因此,作者提出了MAHGA,一种新的异构图增强框架来解决上述问题。MAHGA从图的网络模式和元路径方面设计了增强策略,以充分考虑图的异构性和语义信息。在三个常见的异构数据集和六种流行的异构图学习模型上进行的大量实验证明了MAHGA的合理性和有效性。


    论文链接:
    https://dl./doi/pdf/10.1145/3543507.3583208


    供稿:郭子厚
    审核:李洋
    排版:郝润龙 郭子厚

      本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
      转藏 分享 献花(0

      0条评论

      发表

      请遵守用户 评论公约

      类似文章 更多