ICML2023 || 结合“Model soup”的概念-训练多个弱GNN融合之后得到一个强大的GNN

天承办公室 2023-10-07 发布于北京

展开全文

大家好，今天给大家推荐一篇ICML 2023图网络相关的论文。这篇论文结合“model soup”的概念探索了一种融合多个弱模型来提升图神经网络(GNN)容量的方法。这种方法可以提高GNN在多个小规模和大规模图上的性能。

ICML2023 || 结合“Model soup”的概念-训练多个弱GNN融合之后得到一个强大的GNN

“
论文涉及到一个概念model soup，其中的“soup”是汤的意思,指的是将多个模型的参数(ingredient)混合在一起,就像把各种食材放在一起熬汤一样。具体来说,model soup指的是: \独立并行训练多个模型(候选ingredient),这些模型可以有略微不同的结构或训练超参数。

将这些预训练好的模型混合在一起(stir the soup),得到一个综合的新模型。

混合的方式可以是简单的权重平均,也可以是更复杂的贪心搜索算法来确定最优的混合比例。

混合多个模型可以融合不同模型独立学习到的知识,使新模型拥有更好的性能。

这有点像集成学习中的模型集成,但是参数混合更直接、无缝。对于GNN来说,这种方法可以扩展模型能力,而不需要简单增加模型深度和宽度,避免了过深过宽GNN的训练困难。所以model soup为GNN提供了一种新的扩容思路,通过混合多个弱模型来获得更强大的模型
”

1. 基本信息

论文题目:Graph Ladling: Shockingly Simple Parallel GNN Training without Intermediate Communication

作者:Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Ying Ding, Zhangyang Wang

机构:University of Texas at Austin

2. 摘要

本文探索了一种在不深化或扩宽的情况下扩展GNN容量的方法,这可以在多个小图和大图中提高其性能。作者提出了一种数据中心视角的model soup透视图(a data-centric perspective of model soups),以通过将大的图数据分为多个相对较弱的GNN模型并行训练,而不进行任何中间通信,然后将它们的优势结合起来,使用贪婪插值算法实现最优性能。此外,作者通过利用一些图采样和图分区技术,提供了各种model soup制备技术。作者在多个大规模和小规模图表上的广泛试验证明了作者方法的有效性。

3. 介绍

本文的工作动机是探索一种方法来扩展GNN的容量,而不需要深化或加宽模型,从而可以改善其在多个小型和大型图上的性能。最近的工作表明,简单地深化或加宽GNN的容量不一定会带来性能的改善,而往往会导致训练困难、过度平滑和信息压缩等问题。

本文的主要贡献是:

证明了model soup在图数据上的适用性,并在多个GNN架构和数据集规模上验证了其性能改进。
提出了一种新的面向图数据的model soup方法,通过并行训练多个较弱的GNN并合并它们的优势来处理大规模图数据。
通过扩展当前的图采样和分区技术,提供了各种model soup制备技术。

4. 方法

4.1 model soup和当前的GNN

作者首先定义了model soup中的贪婪插值制备过程,顺序地将每个模型作为潜在的成分加入汤中,如果它能提高验证集性能就保留下来。
证明了model soup可以轻松适用于各种GNN架构,并可以明显提高其性能,而无需增加模型的深度或宽度。

4.2 数据中心的model soup和大图训练范式

当没有资源对整个图进行消息传递时,利用当前的图采样和分区机制来准备model soup的候选成分。
提出了基于图采样的model soup,使用节点采样、边采样和分层采样来促进候选模型的训练。
提出了基于图分区的model soup,使用METIS进行多聚类划分图,每个候选模型独立地形成子图进行训练。

其中, 表示第l层从全图中采样的邻接矩阵, 是第l层采样的节点集, 和分别表示第i个候选模型和其第l层的权重。

5. 实验发现

在Cora、Citeseer、PubMed和OGBN-ArXiv数据集上,与GCN、GCNII、JKNet、DAGNN和SGC等多个GNN基准相比,model soup的性能均有显著提升。

在Flickr、Reddit、OGBN-ArXiv和OGBN-products数据集上,与GraphSAGE、FastGCN和LADIES等图采样方法相比,基于节点采样的model soup取得了最好的性能。
在Flickr、Reddit、OGBN-ArXiv和OGBN-products数据集上,与ClusterGCN和GraphSAINT等图分区方法相比,基于图分区的model soup同样取得了最佳性能。
候选模型数目的增加通常会带来model soup性能的提升。但考虑到计算成本,对大图使用30个候选模型,小图使用50个候选模型。
在OGBN-ArXiv数据集上,相比有中间通信的model soup,无通信model soup的性能更好,后者候选模型之间更具多样性。

6. 结论

本文探索了构建多个弱模型并行训练,最后融合它们的优势。作者展示了model soup在图数据上的可扩展性,并提出了一种面向大规模图数据的model soup方法。通过图采样和分区,作者可以高效地准备model soup的候选成分。实验表明,与单一模型相比,model soup可以取得显著提升的性能。model soup为扩展GNN提供了一种新的思路。