分享

ICML2023 | 分子关系学习的条件图信息瓶颈

 DrugAI 2023-06-07 发布于韩国

今天为大家介绍的是来自韩国科学技术院的一篇分子关系学习的论文。分子关系学习是一种旨在学习分子对之间相互作用行为的方法,在分子科学领域引起了广泛关注,具有广泛的应用前景。最近,图神经网络在分子关系学习中取得了巨大成功,通过将分子建模为图结构,并考虑两个分子之间的原子级相互作用。尽管取得了成功,但现有的分子关系学习方法往往忽视了化学的本质,即化合物由多个子结构组成,这些子结构会引起不同的化学反应。在本文中,作者提出了一种新颖的关系学习框架,称为CGIB,通过检测其中的核心子图来预测一对图之间的相互作用行为。其主要思想是,在给定一对图的情况下,基于条件图信息瓶颈的原理,从一个图中找到一个子图,该子图包含关于当前任务的最小充分信息,并与配对图相互关联。作者认为其方法模拟了化学反应的本质,即分子的核心子结构取决于它与其他分子的相互作用。在各种具有实际数据集的任务上进行的大量实验表明,CGIB优于现有的基准方法。

关系学习旨在预测实体对之间的相互作用行为,在分子科学领域也广受关注。确定药物如何在各种溶剂中溶解(即药物-溶剂对)以及不同的药物组合将如何相互作用(即药物-药物对)是至关重要的。在文章中,作者提出了一个新的分子关系学习框架CGIB,一个简单而有效的关系学习框架,通过检测其中的重要子图来预测一对图之间的互动行为。模型的主要目标是,给定一对图形G1和 G2,检测G1的子图,该子图在决定G1和G2之间的交互行为方面至关重要。

模型

条件图信息瓶颈(Conditional Information Bottleneck): 给定随机变量X1、X2和Y,条件信息瓶颈原则旨在将X1压缩为瓶颈随机变量T1,同时保留用于基于随机变量X2预测Y的相关信息,其中β是一个拉格朗日乘数,用于平衡两个条件互信息项。

文章提出的方法称为CGIB,这是一种基于条件互信息的新颖关系学习框架,用于检测输入图的核心子图。如图1,对于一对图,首先使用GNN对齐进行编码。然后,通过一个交互映射I对G1和G2之间的节点级交互进行建模。然后,基于交互映射,计算嵌入矩阵˜E1和˜E2,每个矩阵都与其配对的图相关,计算方式为˜E1 = I · E2和˜E2 = I^T · E1,其中·表示两个矩阵之间的矩阵乘法。因此,˜E1是捕捉G1中节点与G2中节点之间交互的节点嵌入矩阵,˜E2也是类似的。然后,通过将E1和˜E1拼接在一起来生成G1的最终节点嵌入矩阵H1,即H1 = (E1 || ˜E1)。G2的最终节点嵌入矩阵H2以类似的方式生成。最后,使用Set2Set作为图读出函数,分别为每个图G1和G2生成图级别的嵌入zG1和zG2。

图1

为了训练模型,同时检测核心子图,用以下目标函数对模型进行优化,如下所示,其中每个项分别表示预测和压缩。在原文中,详细提供了每个项的上界,在训练过程中应使其最小化:

结果

表1

表2

文章使用了十一个数据集来全面评估CGIB在三个任务上的性能,即:1)分子相互作用预测,2)药物-药物相互作用(DDI)预测,和3)图相似性学习。分子相互作用预测任务的性能以RMSE评估,药物-药物相互作用预测任务的性能以AUROC和准确率评估,相似性学习任务的性能以MSE、Spearman秩相关系数(表示为ρ)和precision@10(p@10)评估。CGIB在分子相互作用预测和药物-药物相互作用预测任务上的经验性能分别如表1和表2。

1)在分子相互作用预测任务(即CIGIN)和药物-药物相互作用预测任务(SSI-DDI和MIRACLE)中,CGIB优于所有其他忽视核心子图在训练中重要性的基准方法。

2)为了进一步展示CGIB的泛化能力,在归纳设置下进行了额外的实验(表2(b)),这更加实际且更接近实际应用。可以观察到CGIB在归纳设置下始终优于其他基准方法,这验证了CGIB的实用性。

3)值得注意的是,简单的基准方法,即简单地串联一对图的表示,如GCN、GAT、MPNN和GIN,通常表现不如考虑图之间交互的方法,如CIGIN、SSI-DDI和MIRACLE,这表明在关系学习框架中建模图之间的交互是重要的。

图2

为了验证CGIB中条件压缩模块的效益,在Absorption和Emission两个数据集上进行了消融研究,如图2(b)所示。消融研究表明将IB原则简单地应用到关系学习框架中并不是一件轻松的事情,而CGIB成功地采用了IB原则进行关系学习。

图 3

如图3,在对色团数据集进行定性分析时,CGIB预测到色团的边缘子结构在色团-溶剂反应中起着重要作用。这与化学知识相吻合,即化学反应通常发生在离子化的原子周围。此外,CGIB还根据溶剂的不同预测了色团的重要子结构变化,并解释了这种变化与化学极性和溶剂溶解性的关系。研究结果显示,CGIB能够提供对化学反应的令人信服的解释,验证了其在实际应用中的实用性。

结论

文章提出了一种名为CGIB的新型分子关系学习框架,通过检测其中的重要子图来预测一对分子之间的相互作用行为。其主要思想是,在给定一对分子的情况下,根据条件图信息瓶颈原则找到包含关于给定任务的最小充分信息的分子的子结构,并以配对的分子为条件。通过这样做,CGIB根据配对的分子自适应地选择输入分子的核心子结构,与化学反应的本质相一致。通过广泛的实验表明,CGIB在分子关系学习任务中始终优于现有的最先进方法。此外,CGIB能够提供关于化学反应的令人信服的解释,从而验证了它在实际应用中的实用性。

参考资料

Lee, N., Hyun, D., Na, G. S., Kim, S., Lee, J., & Park, C. (2023). Conditional Graph Information Bottleneck for Molecular Relational Learning. arXiv preprint arXiv:2305.01520.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多