分享

Bioinformatics|MolFeSCue:基于小样本对比学习增强有限和不平衡数据下的分子性质预测

 智药邦 2024-04-23 发布于上海

2024年2月29日,吉林大学周丰丰教授团队在Bioinformatics上发表文章MolFeSCue: enhancing molecular property prediction in data-limited and imbalanced contexts using few-shot and contrastive learning

作者提出了一个在小样本学习框架内使用对比学习的分子性质预测(Molecular property prediction using Few-Shot and Contrastive learning, MolFeSCue)模型。提出的MolFeSCue框架不仅有助于从最小样本中快速泛化,而且还采用对比损失函数从不平衡数据集中提取有意义的分子表示。实验表明,所提出的模型优于现有的方法。

背景

预测分子性质是药物发现、材料科学和计算化学等许多科学领域的关键任务。然而,这个问题经常受到缺乏注释数据和不平衡类分布的阻碍,这对开发准确和鲁棒的预测模型提出了重大挑战。

方法

为了解决分子性质预测中普遍存在的数据稀缺和类别不平衡的挑战,作者提出的框架MolFeSCue将小样本对比学习的优势与先进的大规模预训练模型相结合,如图1所示。MolFeSCue的主干是由大规模的预训练模型构成的。该体系结构提供了一个灵活的基础,可适应各种预训练的范例,包括但不限于基于序列的模型和基于图的模型。这样的主干也拓宽了MolFeSCue在不同分子数据类型中的适用性,提升了分子性质预测的性能。

图1 MolFeSCue结构图

MolFeSCue集成了大规模预训练模型,以减轻下游预测任务中有限的注释数据的挑战。这种大规模模型是在广泛的未标记数据集上进行预训练的,旨在捕获分子空间的生成表示。首先,使用RDKit将分子结构转换为分子图,输入基于图神经网络的模型进行处理。随后,它们可能会使用更小的、特定于任务的标记数据集进行微调,以使它们的能力适应特定的任务。

MolFeSCue结合基于序列和基于图的预训练模型,因为它们在捕获潜在分子模式方面具有独特和互补的优势。基于序列的预训练分子模型类似于NLP中基于Transformer的模型。它们有效地捕获了分子数据中固有的序列特征。MolFeSCue集成了预训练的分子模型ChemBERTa,以利用基准数据集中的顺序模式。ChemBERTa基于Transformer的架构专门设计用来表示SMILES编码字符串中的分子。基于图的模型擅长于破译分子的拓扑结构和内在性质。本研究采用属性掩模策略的预训练图同构网络(GIN)模型,这种方法对分子图中的节点和边进行随机掩膜,以使图模型能够在节点级别学习鲁棒表示。两种预训练模型都以无监督方式学习表示的原则,并通过下游任务中有限的标记数据进一步微调。因此,MolFeSCue框架有效缓解了下游分子性质预测任务中数据稀缺的挑战。

MolFeSCue框架的训练过程使用了一个加和损失函数,该函数包括两个部分:与分子性质相关的监督损失和旨在强调正负样本之间差异的对比损失。其中,监督损失分量表示为预测和实际值标签之间的交叉熵损失。

在分子性质预测的背景下,分子性质的复杂性和像活性悬崖这样的建模挑战,往往会导致大量的难分类样本的出现。这样的样本实质上使实现分子特征空间内聚表示的任务复杂化。为了改进分子性质预测,MolFeSCue框架中引入了动态对比损失函数,以管理具有挑战性的负样本的波动分布。与传统对比损失函数的静态特性不同,动态方法更适合神经网络的学习阶段。动态对比损失函数在梯度下降中,确保学习率根据当前训练阶段进行调整,这突出了损失函数的自适应性质,展示了如何通过结合难分样本的衰减比率来动态调整训练过程。

作者假设在训练过程中,难样本呈指数衰减,但衰减到一定程度后趋于稳定。换言之,难分负样本的梯度在训练初始阶段更大,从而在训练的早期强调它们的重要性。随着学习的进展,这种强调自然会减弱,从而降低过拟合的风险,因为这种风险可能源于过度关注这些难分负样本。因此,使用指数衰减作为损失函数中对负采样率进行动态调节的的时间函数f(t)的形式,以逐步减少对难分的负样本的关注,从而使模型的特征空间表示得到更平衡的细化。

小样本学习是MolFeSCue的核心组成部分,专门用于使用较小的数据集快速适应各种下游任务。MolFeSCue将小样本学习与对比学习相结合,增强类别间的差异性。对比学习侧重于表示学习,在特征空间中紧密聚类同一类的样本,同时将不同类别的样本明显分离。这一原则在本研究的研究问题中尤为重要,因为分子性质经常表现出活性悬崖,这意味着结构相似的分子可能具有非常不同的性质。MolFeSCue模型放大了这种区别,有效地解决了固有的样本类别不平衡问题。

结果

作者将MolFeSCue与一些具有代表性的方法进行了比较。如表1所示,采用二分类问题中的AUC作为对比。作者在分子毒性预测的四个数据集上进行了实验。以Tox21数据集为例,数据集包含8014个化合物在共计12个细胞核受体上是否具有毒性的信息,可视为12个任务,作者以其中9个任务用于训练,另外3个任务用于测试。在用于训练的每个任务中,分别选择正负样本各有10个(10-shot)或正负样本各有1个(1-shot)作为训练集,来测试不同方法的性能。可见MolFeSCue性能超越了现有方法。

表1 与其他方法对比

作者设计了消融实验。评估两个组件对MolFeSCue框架的贡献。一个变体MolFeSCue-wc从MolFeSCue的损失函数中去掉了对比损失。另一种变体MolFeSCue-wd不包括负采样率的动态调节。对比如图2所示。完整版的MolFeSCue在Tox21和SIDER两个数据集上的性能优于两个变体MolFeSCue-wc和MolFeSCue-wd。MolFeSCue在Tox21数据集上的最佳AUC得分为0.859,在SIDER数据集上的最佳AUC得分为0.838。这表明,对比学习在分子性质预测任务中的重要性是显而易见的。在MolFeSCue-wc模型中观察到的性能大幅下降突出了对比学习在解决与数据稀缺和类不平衡相关的挑战方面的有效性,该模型缺乏对比损失。MolFeSCue和MolFeSCue-wd之间的性能差距突出了在MolFeSCue框架中动态调整负采样率的重要性。实验数据提供了强有力的证据,证明对比学习和动态采样率调整在提高MolFeSCue分子性质预测的有效性方面发挥了重要作用。

图2 消融实验

作者还进行了案例分析。为了分析MolFeSCue学习到的表示,在Tox21数据集的两个任务NR-AR-LBD和NR-ER-LBD中,利用PCA将MolFeSCue学习到的特征降维到二维空间,然后将其可视化,并与预训练GIN模型进行了比较。从图3a和b所示的观测结果来看,在MolFeSCue嵌入的二维PCA空间中,类1(正样本)和类0(负样本)的数据点分布明显分离。尽管正样本的分子数量有限,但它们的表示都集中在右上角。相反,在图6c和d中,两类分子在预训练的GIN嵌入的二维PCA空间中表现出更高程度的重叠,这使得定义明确的决策边界具有挑战性。这些发现表明,MolFeSCue学习的表示在不同类别之间具有增强的区分能力。值得注意的是,该模型有能力辨别这些分子之间的内在差异,即使它没有被明确地训练与这些样本相关的标签。这种适应性使MolFeSCue能够快速将其获得的知识应用于新的预测任务,从而获得卓越的分类性能。

图3 案例分析

总结

本研究提出了一种新颖的小样本对比学习框架MolFeSCue,用于数据稀缺和不平衡情况下的分子性质预测。MolFeSCue将小样本学习策略与对比学习损失相结合,解决了数据可用性有限和类别不平衡的双重挑战。MolFeSCue框架的有效性在基准数据集上得到了严格的验证,始终优于几个基线模型,即使在单一样本学习的数据下也能提供优秀的结果。消融实验进一步阐明了对比学习在提高MolFeSCue预测能力方面的关键作用。MolFeSCue有望在药物发现、毒性评估以及更广泛的制药和化学工业中得到应用。

然而,在MolFeSCue中,小样本学习和对比学习的结合增加了模型的复杂性,从而导致模型更长的训练时间和更高的计算需求。这种复杂性可能会限制其在资源受限环境中的部署。其次,虽然该框架在毒性相关性质预测方面表现出色,但其在更广泛的分子性质上的有效性仍有待探索。例如,结合亲和力等特性不仅依赖于分子结构,还依赖于蛋白质相互作用,这对MolFeSCue构成了挑战,因为它完全依赖于分子数据。分子空间的不连续性质和活性悬崖的存在进一步使有限分子输入的准确性质预测复杂化,意味着需要进一步验证模型在现实世界药物发现过程中的适用性。

为了解决这些限制,考虑预训练模型的多样性是至关重要的。虽然MolFeSCue包括基于序列和图这两种类型的预训练模型,但随着大语言模型在分子表示中的应用不断深入,进一步研究MolFeSCue与各种预训练的化学语言模型的兼容性是十分必要的。此外,分子动力学模拟和机器学习的整合,也提出了在特定情况下提高模型准确性的另一种途径。这些方法将物理原理与机器学习相结合,通过增强小分子表示学习和有效探索化学空间,可能会提供更好的结果。

参考文献

[1] Zhang et al. MolFeSCue: enhancing molecular property prediction in data-limited and imbalanced contexts using few-shot and contrastive learning. Bioinformatics. 2024

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多