分享

Bioinformatics|MoleMCL:分子预训练的多层次对比学习框架

 智药邦 2024-05-13 发布于上海

2024年3月26日,厦门大学刘向荣教授团队在Bioinformatics上发表文章MoleMCL: a multi-level contrastive learning framework for molecular pre-training。

作者提出了一种基于多层次对比学习的分子预训练模型MoleMCL(a Multi-level Contrastive Learning framework for molecular pre-training)。该模型引入了一种新的对比学习策略:编码器参数扰动的梯度补偿方案。该方法对模型参数进行了更科学的扰动,保证了对比学习过程的稳定性和有效性,同时捕获分子图的结构层次语义和特征层次语义。实验表明,MoleMCL在分子性质预测任务中优于现有模型。

背景

分子表示学习在诸如性质预测和药物设计等关键任务中起着不可或缺的作用。随着深度学习在各个领域的兴起,研究人员越来越多地探索使用深度神经网络来实现更精确的分子表示学习。为了解决分子性质预测的下游任务中的小样本数据挑战,基于预训练-微调的迁移学习框架在分子表示学习中得到了广泛应用。这些模型首先在大量未标记的分子数据上进行预训练,然后进行微调以精确地处理特定的下游任务。这种方法挖掘嵌入在未标记数据中的有价值的信息,为更复杂和专门的任务奠定坚实的基础。尽管分子预训练模型取得了显著的成就,但目前的方法往往无法同时捕获分子图的结构和特征语义,从而难以保持分子图对比学习的核心语义。

方法

如图1所示,MoleMCL融合了两种图对比学习(GCL)策略,即掩膜图对比学习(MaskGCL)和参数摄动图对比学习(parameter perturbation GCL,PPGCL)。需要注意的是,这不是两个模块的简单连接。PPGCL中的梯度计算依赖于MaskGCL中的对比学习。这是因为,分子数据集中缺乏梯度计算所需的丰富标记,传统的基于梯度的扰动技术不能直接应用于分子任务。为了准确、全面地捕捉分子图的语义特征,需要引入梯度补偿参数方案。与传统的基于梯度的方法依赖于标记监督训练相比,融合PPGCL和MaskGCL可以有效解决分子深度学习任务中标记数据的稀缺性,换言之,带有属性掩码的对比学习为编码器参数的扰动提供了可计算的梯度,从而整合结构级和特征级图对比学习。

图1 MoleMCL结构图

MoleMCL将分子图作为输入,节点代表分子中的原子,边代表化学键。图神经网络(GNN)是一种专门为图数据建模而设计的神经网络架构,利用图的结构信息,聚合相邻节点和边的特征,更新每个节点的上下文表示。随后,可以通过对所有节点执行均值池化操作来获得图级表示。

机器学习的许多应用都需要一个模型来对与训练样本分布不同的测试样本做出准确的预测,而在训练过程中,任务特定的标签是稀缺的。应对这一挑战的有效方法是在数据丰富的相关任务上预训练模型,然后在感兴趣的下游任务上对其进行微调。虽然基于掩码的预训练在许多语言和视觉领域都是有效的,但如何有效地在分子图数据集上使用预训练却并非显而易见。

为了解决这个问题,对于输入的分子图,类似于自然语言处理领域的掩码语言模型,作者提出了属性掩码(AttrMask)模型,对从ZINC15数据库中采样的200万个未标记分子进行了自监督预训练,使用图同构网络(GIN)作为基础的GNN架构。先随机掩码一定比例的节点/边属性,用特定的令牌替换,得到新的掩码图⁠。分子图中的节点属性包括原子类型和手性标记,而边属性包括化学键的类型和方向。然后训练模型来学习被遮挡部分的嵌入,最后对嵌入应用线性模型来重建节点或者边属性。AttrMask根据上下文预测被屏蔽的属性,使GNN能够捕获简单的化学规则。

为了进一步捕获分子图级语义,作者设计了一个基于属性掩蔽的图级对比学习任务。通过在GNN中输入掩膜图,生成一个图嵌入以进行对比学习⁠。考虑将所生成的图和原分子图的输出作为正对,在特征表示和对比损失之间引入一个前馈神经网络,可以显著优化学习特征的质量。这里,对比学习损失使用归一化温度尺度交叉熵损失。通过结合AttrMask的重建损失和对比损失,GNN可以同时捕获节点级和图级分子语义。可将其称为属性屏蔽图对比学习模块MaskGCL。

MaskGCL通过简单的增强操作实现分子对比学习,消除了费力的人工试验和可能的错误,最大化了共享相同语义的成对图增强之间的互信息。然而,对分子结构的简单增强可能导致语义的丧失。目前,图对比学习中旨在保持语义的数据增强有三种不令人满意的方式。首先,可以通过试错来手动选择每个数据集的增量。其次,可以通过繁琐的搜索来选择增强。第三,可以通过引入化学领域特定知识作为指导来获得增强。此外,在分子图中生成对比样本比在图像或语言领域的图中生成对比样本更具挑战性,因为现有的研究对如何在不改变分子图标签的情况下对图进行显著增强的先验知识很少。所有这些都限制了现有的分子图对比学习方法的效率和更普遍的适用性。

为了更好地保留原始分子图的语义信息和学习特征级信息,作者设计了一种基于参数摄动的图对比学习方法PPGCL。当将原始图作为输入,将GNN模型及其摄动版本作为两个编码器,就可以获得两个相关视图进行对比。实际上,图数据可以在编码器扰动期间很好地保留其语义,同时不需要手动试错、繁琐的搜索或昂贵的领域知识来进行增强选择。

具体来说,PPGCL利用MaskGCL阶段的对比损失梯度,控制摄动的大小。在加入梯度补偿后,GNN不仅可以准确地表示分子图,而且可以保持阳性样本之间更接近。这种改进有助于提高后续对比学习的表现。与MaskGCL模块类似,将从具有参数扰动的编码器获得的特征与原始特征作为正对进行对比学习,优化促进正对特征的对齐或接近,并使得特征诱导的样本概率分布趋于均匀。

结果

作者将MoleMCL与一些具有代表性的方法进行了比较。如表1所示,将多个数据集上的预测准确度及其平均值作为对比。表1中的括号表示多次实验的标准差,横线表示次优的结果。MoleMCL性能在大多数的数据集,以及各个数据集的平均值上,超越了现有方法。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。将SimGRACE(基于高斯噪声参数扰动的对比学习)、MaskMCL(基于AttrMask的对比学习)、PPGCL(基于参数扰动的对比学习)、MaskGCL+SimGRACE(使用两种对比损失训练)与MoleMCL模型进行了比较。结果如表2所示。与未进行预训练的模型相比,作者提出的MaskGCL、PPGCL和MoleMCL均显示出改进的效果,表明了预训练策略的有效性。与MaskGCL和PPGCL相比,MoleMCL分别提高了1.5%和4.6%,表明两种增强方法相结合可以有效地提高模型性能。

另一方面,SimGRACE及其变体MaskMCL+SimGRACE在某些数据集上表现出负迁移,这表明简单的高斯噪声扰动可能会破坏模型的语义,导致性能下降。与单独使用MaskGCL相比,在模型中添加SimGRACE会导致性能下降,这表明需要仔细设计增强方法。作者提出的PPGCL基于之前的对比损失梯度对编码器参数进行扰动,有效地集成了新的特征语义,同时保留了MaskGCL学习到的结构信息,提高了模型性能。

表2 消融实验

作者还进行了案例分析。分子检索实验旨在确定MoleMCL获得实际应用中有意义的化学表征的能力。该实验在ToxCast数据集上进行,包括计算所有测试集分子和指定查询分子的表示之间的相似度。图2展示了与查询分子具有最高相似性的前四个分子,以及它们的Tanimoto相似性得分。结果表明,MoleMCL获得的表征与分子指纹相似度一致,而MaskMCL获得的表征不能准确捕获真正的化学相似性。这证实了MoleMCL方法的有效性。

图2 案例分析

总结

在本文中,作者将属性掩模图对比学习与基于参数扰动的图对比学习相结合,提出了多层次对比学习分子预训练框架MoleMCL。实验表明,MoleMCL在分子性质预测任务上取得了优异的成绩,而且这种新型的图对比学习策略,可以作为一个通用的预训练任务。这项工作将进一步加深对分子深度学习模型的理解和探索,并为分子图上的自监督学习铺平新的道路。未来的努力将考虑将梯度补偿策略扩展到其他任务,以更好地解决分子深度学习中的泛化性的挑战。

参考资料:
[1] Zhang et al. MoleMCL: a multi-level contrastive learning framework for molecular pre-training. Bioinformatics. 2024

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多