分享

IJCAI2023 | 化学小分子预训练模型综述

 DrugAI 2023-04-28 发布于韩国

今天为大家介绍的是来自西湖大学李子青(Stan Z. Li)实验室, UCLA, 康奈尔联合发表在IJCAI 2023上的一篇小分子预训练模型的综述论文。未来,该综述将会在统一的实验设置下,公平地评估典型CPMs在多种下游任务中的表现。

深度学习在分子表示学习的任务上取得了显著的进展,这对于各种生物化学应用非常重要,涵盖了从性质预测到药物设计。然而,从零开始训练(training from scratch)深度神经网络(DNNs)通常需要大量标记的分子数据,这在现实世界中获取起来非常昂贵。另一方面,当我们希望预测与训练集中分子都不同的新合成分子的属性时,这需要模型有很好的外泛化能力。然而,从头开始训练的模型无法很好地外推到分布外的分子。

为了缓解这个问题,受到自然语言处理(NLP)领域的预训练语言模型(Pre-trained Language Models,PLMs)的启发,研究者开发了大量的化学预训练模型(Chemical Pre-trained Models,CPMs)。如Figure 1所示,我们首先使用大规模未标记的分子数据库对DNN进行预训练(Pre-train),然后通过特定的下游任务(e.g., MPP, DDI, DTI等)进行微调(Fine-tune)。

尽管CPMs在分子表示学习中的应用越来越广泛,但这个迅速发展的领域仍然缺乏系统性的综述。在本文中,我们提供了第一个CPMs综述,以帮助机器学习、药物研发领域的受众理解、使用和开发CPMs。此外,我们汇总了CPMs的相关资源: [Github](https://github.com/junxia97/awesome-pretrain-on-molecules),并会持续更新。

下面我们从四个角度(分子描述符,分子Encoders架构,预训练策略,CPMs的应用)对CPMs领域进行详细的介绍。

分子描述符 & 分子Encoders架构

分子指纹

分子指纹用二进制字符串描述分子中特定亚结构的存在或缺失。例如,PubChemFP编码了881种结构关键类型,这些关键类型对应于PubChem数据库中化合物片段的亚结构。可以用MLP等DNN架构来处理分子指纹数据。

SMILES,SELFIES字符串

分子的最常用序列描述符是SMILES/SELFIES。每个原子都表示为相应的ASCII符号。化学键、分支和立体化学由特定符号表示。Transformer, RNN, 1D-CNN等DNNs都可以用来处理这样的字符串数据。

2D 分子图

分子可以自然地表示为2D图,其中原子作为节点,键作为边。每个节点和边也可以携带特征向量,表示例如原子类型/立体化学和键类型/方向等信息。GNNs模型自然可以用来处理分子图数据。

3D 分子图

3D几何表示分子中原子在3D空间中的空间排列,每个原子与其类型和坐标以及一些可选的几何属性(如速度)相关联。使用3D几何的优点是构象信息对许多分子性质(特别是量子性质)至关重要。许多最近的工作在3D几何上开发了消息传递机制,使学到的表示遵循某些物理对称性,如对平移和旋转的等变性。

预训练策略

自监督学习策略

在上图中,我们给出了常见的分子预训练方法的形象化示意图,详细的介绍可以参见原文。

我们也总结了目前具有代表性的化学小分子预训练模型。

知识增强型预训练

CPMs通常从大型分子数据库中学习通用分子表示。然而,它们常常缺乏领域特定的知识。为了提高其性能,最近的一些研究尝试将外部知识注入CPMs中。例如,GraphCL 首先指出,键的扰动(添加或删除化学键作为数据增强)在概念上与领域知识不兼容,并且在化学化合物的对比预训练中经验上也没有帮助。因此,他们避免采用键扰动进行分子图形增强。更明确地,MoCL 提出了一种基于领域知识的分子数据增广方式,称为亚结构替换,分子的有效亚结构被生物等同物替换,从而产生具有类似物理或化学性质的新分子。最近,KCL 构建了一个化学元素知识图谱(KG)来总结化学元素之间的微观关联,并提出了一种新颖的知识增强对比学习(KCL)框架,用于分子表示学习。此外,MGSSL 首先利用现有算法提取语义上有意义的fragments,然后预训练神经编码器以自回归方式预测fragments。

多模态预训练

除了上面提到的描述符外,分子还可以用其他模态描述方式,包括图像和生物化学文本。一些最近的研究在分子上进行多模态预训练。例如,KV-PLM首先对SMILES字符串和生物化学文本进行标记化。然后,他们随机遮蔽部分标记并预训练神经编码器以恢复被遮蔽的标记。类似地,MolT5 遵循预训练语言模型T5的预训练方式,首先遮蔽一些富含SMILES字符串和生物化学文本描述的片段,然后预训练模型以预测被遮蔽的片段。通过这种方式,这些预训练模型可以生成SMILES字符串和生物化学文本,特别适用于文本引导的分子生成和为分子生成描述性文本。MOCO提出最大化四种分子描述符嵌入和它们的聚合嵌入之间的一致性,使用对比目标。通过这种方式,这些不同的描述符可以相互协作,用于分子性质预测任务。此外,MICER采用基于自编码器的预训练框架为分子生成描述性文本。具体而言,他们将分子图像馈送到预训练的编码器中,然后解码相应的SMILES字符串。ImageMol 利用大规模无标签分子图像数据进行无监督预训练,为分子性质与药物靶点理解提供了新范式,证明了分子图像在智能药物研发领域具有巨大的潜力。上述多模态预训练策略可以促进各种模态之间的转换。此外,这些模态可以共同创建更完整的知识库,用于各种下游任务。

应用

化学小分子预训练模型可以为小分子提取具有表达力的表征,也可以称为Neural Fingerprints,可以用在分子属性预测、药物靶点亲和力预测(DTI),药物药物交互(DDI),分子生成等药物发现任务上。详情请见原文。

未来的展望

提高编码器架构和预训练目标

CPMs的理想架构仍然是难以捉摸的,这可以从以前的研究中看出,Graph Attention Networks (GATs)被广泛用于图学习,但在分子图预训练中却带来了Negative Transfer负面效应,这是一个值得探究的现象。此外,迫切需要探索将消息传递技术无缝集成到transformer中作为统一编码器,以适应大规模分子图的预训练。此外,正如第3节中讨论的那样,预训练目标仍有很大的改进空间,例如MCM中子组分的有效mask策略就是一个典型例子。

建立可靠和现实的基准

尽管对CPMs进行了大量研究,但由于采用的评估设置不一致(例如随机种子和数据集拆分),它们的实验结果有时可能不可靠。例如,在包含多个用于分子属性预测的数据集的MoleculeNet上,同一模型的性能可能会因不同的随机种子而有很大的变化,可能是由于这些分子数据集相对较小。建立更可靠和现实的CPMs评估基准非常重要,这需要考虑到分布外泛化。一种解决方案是通过骨架分割(scaffold splitting)对CPMs进行评估,这涉及根据它们的亚结构来分割分子数据集。现实中,研究人员常常需要将已知分子训练的CPMs应用于新合成的未知分子,这些分子可能在特性上有很大差异。最近建立的Therapeutics Data Commons (TDC) 提供了一个有前途的机会,可以公平评估CPMs在各种医药应用中的性能。

扩大化学预训练模型的影响

CPMs研究的最终目标是开发通用的分子编码器,可以应用于与分子相关的各种下游任务。尽管与NLP社区中PLMs的进展相比,CPMs方法学进步和实际应用存在相当大的差距。一方面,CPMs产生的分子表征尚未被广泛用于替代化学中传统的分子描述符,并且预训练模型尚未成为社区的标准工具。另一方面,这些CPMs如何可以应用于更广泛的下游任务,包括化学反应预测、虚拟筛选中的分子相似性搜索、回溯合成、化学空间探索等。

建立理论基础

尽管CPMs在各种下游任务中表现出了令人印象深刻的性能,但对这些模型缺乏严格的理论解释。未来需要建立CPMs的理论基础,以全面理解它们的机制以及它们如何在各种应用中改进性能。例如,最近的一项实证研究质疑了某些自监督图预训练策略在某些下游任务中的优越性,这需要进一步研究以获得更加可靠的结论,以便指导更好的预训练方案设计。

参考资料

文件链接:https:///abs/2210.16484

代码: https://github.com/junxia97/awesome-pretrain-on-molecules

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章