分享

综述:化学分子预训练模型的研究

 啊鲁通 2023-12-20 发布于上海

    今天给大家介绍一篇关于化学分子预训练模型的综述,文章来自于西湖大学李子青(Stan Z. Li)实验室。

. 背景介绍

    得力于深度度学习强大的特征提取能力,相比于传统的方法深度学习在分子表征方面取得了显著的成功。这使其被广泛应用于药物设计,性质预测等各种重要的生物化学的应用中来。然而,一般的应用模型从头开始训练神经网络都需要大量的标注数据,获取高质量的标注数据并不容易且非常昂贵,这使得数据成为阻碍这一领域发展的重要因素。

    受到自然语言处理(NLP)领域的预训练语言模型的启发,开发属于化学分子的预训练模型成为缓解这个问题的重要方法。其总体过程如Figure 1所示,首先使用大规模未标记的分子数据库预训练一个Encoder网络,然后在特定的下游任务就可以用少量的数据进行微调。使用预训练的方式一方面可以解决标注数据的问题,另一方面也可以使模型有更好的泛化能力,而且也能节省宝贵的算力资源。

    目前,发展出来化学预训练模型有很多。作者从四个角度(分子描述符,分子Encoders架构,预训练策略,应用领域)对它们进行了区分和详细的介绍,并举例了其中具有代表性的模型,详情如下图Figure 2所示。

. 分子描述符

    分子描述符,在预训练模型之前描述分子的方式。目前常用的分子描述符有下面几种。

分子指纹:一串特殊的二进制字符,每一个字符表示分子中某个特定亚结构是否存在。例如,PubChemFP编码了881种结构关键类型,这些关键类型对应于PubChem数据库中化合物片段的亚结构。

SELFIES:由于其通用性和可解释性,是目前最常用的分子序列描述符。分子中不同原子、化学键类型、立体结构、侧链分支位置在SELFIES中都有相应的规则和符号进行描述。

2D分子图:以原子为节点,键为边,每个分子都可以自然地表示为分子图。原子和键的属性可以通过节点和边的特征向量来表示。

3D 分子图:2D分子图的基础上增加分子在三维空间的坐标信息。使用3D几何的优点是构象信息对许多分子性质(特别是量子性质)至关重要。许多最近的工作在3D几何上开发了消息传递机制,使学到的分子表示遵循某些物理对称性,如对平移和旋转的等变性。

. 预训练的策略

AutoEncoding (AE):输入的分子描述符经过编码得到与之对应的分子向量,再经过解码还原至分子描述符,通过对比输入和输出的差异进行预训练。尽管进过编码得到的向量可以学习到分子的一些特征,但因为专注单个分子而无法捕捉分子间关系,这也限制了它们在一些下游任务中的性能。

Autoregressive Modeling (AM):类似于GPT的预训练策略,通过已知的上文信息进行自回归预测接下来最大可能的结构。因为预训练的方式类似于分子生成,所以与其他预训练策略相比在分子生成的下游任务中会表现的更好一些。但是,AM的计算成本相比要更高一些,而且对分子描述符中的位置关系比较敏感。

Masked Component Modeling (MCM):NLPMLM成为了主流的预训练策略,借鉴这种思路应用于分子预训练中就是MCM。具体内容就是训练前随机掩盖一部分信息,通过掩盖部分的上下文信息预测掩盖的内容。掩盖的信息可以是键也可以是原子或者是一整个片段。与上述 AM 策略相比,MCM需要根据周围环境进行预测被掩盖的部分,因此捕获的语义信息也更丰富。

Context Prediction (CP):上下文预测(CP)旨在以明确的、上下文感知的方式捕获分子/原子的语义。比如,使用二元分类来判断分子和周围上下文结构中的子图是否属于相同的节点。虽然简单有效,但 CP 需要辅助神经模型将上下文编码为固定向量,从而为大规模预训练增加了额外的计算开销。

Contrastive Learning (CL):对比学习(CL,图 3e)通过最大化一对相似输入(例如同一分子的两个不同增强或描述符)之间的一致性来预训练模型。根据对比粒度(例如分子级或子结构级)可以分为两类:跨尺度对比(CSC)和同尺度对比(SSC)。虽然CL目前取得了不错的成果,但是还留有一些关键的问题没有得到解决。首先,在分子增强过程中难保留语义完整;其次CL 将相似表征拉近的假设对于分子表征学习来说可能并不总是成立。例如,在分子活性悬崖的情况下,相似的分子具有完全不同的特性。

Replaced Components Detection (RCD):把输入的分子切分并随机替换部分,通过训练解码器来检测组合部分是否属于同一份子。

DeNoising (DN):受到去噪扩散概率模型成功的启发被采用的分子表示学习的预训练策略。比如:将噪声转换为 3D 分子几何的原子坐标,并预训练编码器以预测噪声,并且证明这种去噪目标近似于学习分子力场[Zaidi et al., 2023] 。

知识增强型预训练:CPM 通常从大型分子数据库中学习一般分子表征。然而,他们往往缺乏特定领域的知识。为了提高它们的性能,最近的一些研究尝试将外部知识注入到 CPM 中。尽管知识丰富的预训练有助于 CPM 获取化学领域知识,但它需要有标签的先验知识作为指导。

多模态预训练:除了上面提到的描述符外,分子还可以用其他模态描述方式,包括图像和生物化学文本。一些最近的研究在分子上进行多模态预训练。例如,MOCO提出最大化四种分子描述符嵌入和它们的聚合嵌入之间的一致性,使用对比目标。通过这种方式,这些不同的描述符可以相互协作,用于分子性质预测任务。

四:应用

    分子预训练模型可以很好的提取分子描述符中分子特征,可以被广泛的应用于各种下游任务中。常见的有以下情况。

分子属性预测(MPP):分子属性预测,与从头开始训练的模型相比,CPM 可以更好地外推到分布外的分子,这在预测新合成药物的特性时尤其重要 

分子生成(MG):分子生成是计算机辅助药物设计中长期存在的挑战,CPM 可以缩小了搜索空间并提高了计算效率,使得研究大量的药物化学空间成为可能。

药物-靶标相互作用 (DTI): CPM 可以通过为分子编码器提供良好的初始化来克服DTI数据不足的问题。

药物间相互作用 (DDI):从机器学习的角度来看,DDI预测可以被视为一种分类任务,确定组合药物的影响是协同、相加还是拮抗。为了实现高效准确的 DDI 预测,需要准确的分子表示,这可以使用 CPM 获得。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多