分享

ICLR2023 | 用提示学习进行多层次的蛋白质结构预训练

 DrugAI 2023-05-27 发布于韩国

今天为大家介绍的是来自浙江大学陈华骏团队的一篇蛋白质预训练的论文。蛋白质可以通过不同的结构层次来实现其功能。每个结构层次都有其独特的优势和描述特定特征的驱动力,它们之间不能互相取代。现有的大多数功能预测方法要么采用主要结构,要么采用三级结构作为输入,无意中忽略了蛋白质结构的其他层次。考虑到蛋白质序列可以决定多级结构,本文旨在实现蛋白质序列在功能预测中的全面潜力。具体而言,作者提出了一种新的基于提示的多任务预训练和微调框架。通过提示引导的多任务预训练,学习多个提示信号来引导模型(称为PromptProtein)专注于不同层次的结构。同时还设计了一个提示微调模块,以提供下游任务对利用相应层次结构信息的灵活性。大量的功能预测和蛋白工程实验表明,PromptProtein在性能上优于现有的方法。这是第一个基于提示学习的预训练蛋白质模型。

受到提示学习的启发,作者提出了一个基于提示的多任务蛋白质预训练和微调框架,称为PromptProtein。提示引导的多任务预训练将多个预训练任务与专用的标记(称为提示)相关联。为了利用提示标记,引入了一个提示感知的注意力模块,修改了Transformer架构的两个组成部分:1)注意力掩码,用于阻止输入数据与提示之间的注意力计算,因为提示应该是任务相关而不是样本相关的。2)对于跳跃连接,使用提示计算跳跃权重,可以过滤掉与任务无关的信息。在微调阶段,作者提出了一个提示微调模块来协调所有的提示标记,使得模型能够灵活地利用多级蛋白质结构信息,实现对学习到的结构知识的积极迁移,用于下游任务。

图1

为了从输入数据x中获取多种信息,传统的多任务学习通常会产生一个通用的表征h,整个目标可以被表述为各个任务目标的加权和。然而,多级蛋白质结构可能是不一致的:一级结构更注重沿序列的依赖性,而三级和四级结构更重视空间组织,这可能导致任务干扰的问题。由于预训练和下游任务之间的差距,这个问题会导致多任务预训练中更严重的负迁移。为了解决这个问题,作者提出了一个提示引导的多任务预训练和微调框架,利用提示标记p来产生一个特定任务的表征。多个学习的标记可以灵活地结合起来,为各种下游任务引导预训练的模型,弥补预训练和下游任务之间的差距(在微调阶段,通过学习的提示标记,prompt-tuning模块τθ(·)可以灵活地结合结构信息,以适应各种下游任务。)。PromptProtein模型框架如图1所示。

提示意识的注意力模块

为了减少预训练任务之间的干扰,使用提示标记来修改Transformer架构,使预训练模型能够有效地获得多种信息。具体来说,作者修改了Transformer的两个部分:注意掩码和跳过连接,由此产生的架构被称为提示感知Transformer。

图2

如图2所示,作者在原Transformer模型的基础上设计了一个注意力屏蔽矩阵M,只保留提示语对输入序列的影响,而消除反向影响。M ij表示屏蔽矩阵的(i, j)元素,定义为:

同时,为了鼓励不同的任务由不同的层来处理,减少任务干扰,作者设计了一个加权的跳过连接。整个过程被表示为:

预训练部分

为了获取多层次的蛋白质结构信息,本文考虑了三个互补的预训练任务:(1)遮蔽语言建模,这是现有PTPM普遍采用的方法,可以捕捉到一级结构信息;(2)坐标预测,获取二级和三级结构;(3)相互作用预测,获取四级结构。

实验部分

表1

下游任务功能注释:GO术语和EC编号是组织无数蛋白质功能的两个标准分类方案。这些功能预测任务可以被看作是多个二元分类任务。评价指标是以蛋白质为中心的最大F分数和AUPR曲线下的面积。作者在本文中与大量基线模型进行了对比。表1中列出了PromptProtein和最先进的基线的评估结果。与所有基线相比,PromptProtein在所有任务上都取得了新的最先进的性能,这表明对多层次结构信息进行系统建模是有益的。尽管多任务学习基线整合了与PromptProtein相同的信息,但它们不能很好地学习多种信息并适当地转移到下游任务中。它们在GO-BP和GO-CC中的表现较差,说明下游任务所需的表征与普遍的预训练表征之间存在差距。对结构信息的灵活组合能明显提高模型在下游任务中的表现。

表2

下游任务蛋白质工程任务:蛋白质工程被认为是一项序列回归的任务,即给定一个蛋白质,需要用模型来确定其功能强度。对于没有三维结构的蛋白质,几何学方法不能直接应用于这些任务。本文选择基于序列的方法(CNN、LSTM、Transformer)和预训练的蛋白质方法(ESM-1b、ESM-1v、ProteinBert-BFD、LSTM-MT)作为蛋白质工程任务的基线。为了公平比较,本文采用平均池化方法来获得蛋白质表示。从表2中,可以观察到PromptProtein获得了比所有基线更好的性能。它证实了对结构目标的预训练有助于蛋白质工程任务,蛋白质多层次结构的系统建模导致了进一步的改进。

表3

消融实验:进行消融研究是为了验证PromptProtein中设计的模块的有效性,即提示、注意力掩码或跳过连接。如表3所示,如果缺少任何一个模块,性能就会下降,这表明所有的模块都是有利的。可以注意到,跳过连接对性能的贡献最大,证实了减少任务干扰的必要性。

结论

作者将提示的概念从NLP扩展到了蛋白质表征。提出了提示引导的多任务预训练和微调框架。通过这个框架,提出了三种互补的预训练结构来获取多层次的结构信息,并将它们灵活地组合起来用于各种下游任务。功能预测和蛋白质工程的实验结果表明,与传统的PTPMs相比,所提出的方法可以产生令人满意的改进。这种改进在低资源环境下尤为显著。

参考资料

Wang, Z., Zhang, Q., Shuang-Wei, H. U., Yu, H., Jin, X., Gong, Z., & Chen, H. Multi-level Protein Structure Pre-training via Prompt Learning. In The Eleventh International Conference on Learning Representations.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多