分享

NeurIPS | 助力药物发现与材料合成领域新突破

 DrugAI 2023-03-30 发布于韩国

今天我们介绍一篇由Yogesh Verma及其同事等人发表在NeurIPS 2022会议上的工作,文章介绍了一种新的方法通过使用连续归一化 E(3)-等变流来有效地生成新分子。这些流基于节点 ODE 系统,作为图形 PDE 耦合,反复协调局部和全局对齐密度。该模型可以被视为消息传递时间网络,并在密度估计和分子生成任务上取得了卓越的性能。具体而言,本文生成的样本在标准 QM9 和 ZINC250K 基准测试中均达到了最先进水平。

1

背景

生成新分子是推进药物发现和材料合成等关键应用的基础。流可以通过反转编码过程有效地生成分子,然而,现有的流模型要么需要人工去量化或特定的节点/边顺序,缺乏所需的条件,如排列不变性,要么导致编码和解码步骤之间的差异,需要事后有效性修正。本文提出了一种新的方法来同时解决这些问题,即使用连续归一化 E(3)-等变流来生成新分子并进行密度估计。

本文的创新与贡献:

(1)本文提出了ModFlow,一种新的基于耦合连续归一化E(3)等变流的生成模型。ModFlow使用pde封装了基本的归纳偏差,并定义了多个流,这些流在局部相互作用,以实现全局一致的联合密度;

(2)本文使用E(3)等变GNN编码排列、平移、旋转和反射等方差,以适应分子生成,并可以利用3D几何信息;

(3)ModFlow是端到端可训练的,非自回归的,并且不需要任何外部有效性检查或更正;

根据实验,ModFlow在标准QM9(Ramakrishnan et al.,2014)和ZINC250K(Irwin et al.,2012)基准上都达到了最先进的性能。

表1 分子生成建模方法的比较

图1 模块化流(Mod Flow)生成的演示。初始高斯分布在f下演化为复密度z(T),随后转化为概率和标签

2

算法流程

本文提出的算法是Modular Flows(ModFlow),其主要目标是用无监督学习方法学习分子图谱密度,并生成高概率分子。ModFlow是一种生成对抗网络,它使用了一个非反向的复合函数,将连续的流空间转化为离散的图空间,并最终生成一个分布。具体流程可以分为以下几个步骤:

(1)分子表示:将每个分子图G表示为顶点V和边E的元组,其中顶点取自原子字母表,每个顶点可以具有其他顶点之间的边缘,形成一个完整的图像。

(2)流模型:构造一个生成流模型pθ(G),学习模型参数θ,从而对流空间进行表征,并构建与之对应的定义密度函数。

(3)训练模型:通过最大化观察到的分子图的得分函数,将观察到的分子图通过一个直接和非反向的求和转化为概率密度函数,最终得到训练好的模型。

(4)生成新分子:通过按照先前训练得到的分子成本函数将流空间转化为离散图空间。

图2:显示ModFlow的推断和生成组件的平板图

3

实验

数据集:本文使用了两个分子生成的数据集:QM9数据集和ZINC250K数据集。QM9数据集包含133k个分子,每个分子都由氢、氧、氮、碳单元之间的共价键组成,具有最多九个重要的量子力学化学属性值。ZINC250K数据集是一个较大的分子库,包含超过250k个化合物结构,其中一部分来自于ZINC在线分子数据库。这两个数据集是分子生成模型性能评估和属性优化的常用数据集。同时,本文提出的模型ModFlow是针对这两个数据集进行测试和优化改进的。

实验过程:本文主要使用模块化流(ModFlow)模型进行了分子表示和生成的实验研究。首先,本文使用QM9和ZINC250K数据集中的分子图像来训练模型,将每个分子表示为节点和边的形式,并使用模型参数θ生成高概率的新分子。然后,本文使用预先训练的ModFlow模型将分子嵌入到其表示向量中,并使用线性回归算法将分子的化学性质用向量表示。接下来,本文通过在分子的潜在空间中插值,找到具有高化学性质的新分子。最后,本文进行了消融实验来进一步研究ModFlow模型的性能表现。

图3 ModFlow可以精确地学习重现复杂的、不连续的图形模式

表2 生成质量评估

图4 ModFlow生成的分子样本

图5 ZINC250K数据集上的化学性质优化示例。给定最左边的分子,本文沿着使其QED性质最大化的方向在潜在空间中进行插值

图6 QM9数据集上的化学性质优化示例。给定最左边的分子,本文沿着使其QED性质最大化的方向在潜在空间中进行插值

表3 最佳QED分数方面的表现

实验结果:本文进行了多个实验,展示了ModFlow 在2D网格、分子生成和优化任务上的学习能力。本文结果表明,ModFlow比其他著名的基于流和非流基的分子生成模型(包括GraphDF,GraphNVP,MRNN和GraphAF)表现更好,且不需有效性检查或事后校正。此外,本文还展示了化学性质优化的示例,ModFlow可以发现具有高QED得分的新型分子。最后,通过消融实验的方式,加深了对ModFlow的理解。

具体而言,在2D网格实验中,ModFlow展现出对高度不连续的合成模式的生成能力;在分子生成和优化任务中,ModFlow通过考虑几何特征和等变性,表现出优秀的生成能力和药物性质优化能力。在两项任务中,ModFlow的表现均优于其他著名的基于流和非流基的分子生成模型。在化学性质优化实验中,ModFlow成功地发现了具有高QED得分的新型分子,这为化学家和生物学家提供了很多帮助。通过消融实验,本文发现,在2D和3D坐标表示和树表示任务中,3D坐标表示是最有效的表示。除此之外,包含几何的特征在ModFlow的性能中发挥了重要作用。

表4 E(3)-EGNN与GCN在ZINC250K和QM9数据集上的随机生成性能

表5 ZINC250K和QM9数据集上二维与三维特征的随机生成

4

 结论

本文提出了一种新的生成流模型ModFlow,其中多个流根据耦合ODE进行局部交互,从而实现了图密度的精确建模和高质量的分子生成,而无需任何有效性检查或校正。开辟了有趣的途径,包括设计离散空间和连续空间之间更微妙的映射,以及将模块化流程扩展到(半)监督设置。

参考资料

文章链接:https:///forum?id=Xo8_yHyw4S

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多