分享

利用进化扩散进行蛋白生成,微软开源新型蛋白质生成AI框架EvoDiff

 天承办公室 2023-10-04 发布于江苏

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

图片


图片

编辑 | 紫罗

进化产生了多种功能蛋白,可以精确调节细胞过程。近年来出现了深度生成模型,旨在从这种多样性中学习,生成既有效又新颖的蛋白质,最终目标是定制功能以解决当今突出的挑战。

当涉及到在计算机上创造新的蛋白质时,深度生成模型正成为越来越强大的工具。扩散模型是一类生成模型,最近被证明可以生成生理上合理的蛋白质,与自然界中看到的任何实际蛋白质不同,它可以在从头蛋白质设计中提供无与伦比的能力和控制。

然而,当前最先进的模型构建蛋白质结构,这严重限制了其训练数据的广度,并将代限制在蛋白质设计空间的微小且有偏差的部分。

微软研究人员开发了 EvoDiff——一种通用扩散框架,通过将进化规模数据与扩散模型的独特调节能力相结合,可以在序列空间中创建可调节的蛋白质。EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。EvoDiff 可以构建基于结构的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架,这一事实证明了基于序列的公式的普遍性。

在蛋白质序列进化中,EvoDiff 是第一个展示扩散生成模型功效的深度学习框架。

EvoDiff 的共同作者、微软高级研究员 Ava Amini 表示:「如果有什么可以从 EvoDiff 中学到的,我认为那就是,我们可以而且应该通过序列进行蛋白质生成,因为我们能够实现通用性、规模化和模块化。我们的扩散框架使我们有能力做到这一点,并控制我们如何设计这些蛋白质以满足特定的功能目标。」

EvoDiff 的另一位共同作者 Kevin K. Yang 表示,「我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,通过 EvoDiff,我们证明我们实际上可能不需要结构,而是蛋白质序列就是你所需要的来可控地设计新蛋白质。

该研究以《Protein generation with evolutionary diffusion: sequence is all you need》为题,发布在 bioRxiv 预印平台上。

图片

GitHub 地址:https://github.com/microsoft/evodiff

论文链接:https:///10.1101/2023.09.11.556673

6.4 亿个参数

EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。训练模型的数据来源于用于序列比对的 OpenFold 数据集 UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。

Uniref50 是一个包含约 4200 万个蛋白质序列的数据集。MSA 来自 OpenFold 数据集,其中包括 16,000,000 个 UniClust30 集群和 401,381 个 MSA,涵盖 140,000 个不同的 PDB 链。有关 IDR 的信息来自反向同源 GitHub。

EvoDiff  的主要特征

EvoDiff  主要特征如下:

  • 为了生成可管理的蛋白质序列,EvoDiff 将进化规模数据与扩散模型相结合。
  • EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。
  • 除了生成具有无序部分和基于结构的模型无法获得的其他特征的蛋白质外,EvoDiff 还可以生成功能性结构基序的支架,证明了基于序列的配方的普遍适用性。

EvoDiff 是一种新颖的生成建模系统,用于仅从序列数据创建可编程蛋白质,该系统是通过将进化规模数据集与扩散模型相结合而开发的。其使用离散扩散框架,其中正向过程通过改变其氨基酸特性来迭代地破坏蛋白质序列,并且由神经网络参数化的学习反向过程利用自然框架来预测每次迭代时所做的变化。蛋白质作为氨基酸语言上离散标记的序列。

图片

图 1:EvoDiff,用于仅从序列数据进行可控蛋白质设计。(来源:论文)

可以使用反向方法从头开始创建蛋白质序列。与蛋白质结构设计中传统使用的连续扩散公式相比,EvoDiff 中使用的离散扩散公式在数学上取得了显著的改进。多重序列比对 (MSA) 突出显示相关蛋白质组的氨基酸序列的保守模式和变异,从而捕获单个蛋白质序列进化规模数据集之外的进化联系。为了利用这种额外深度的进化信息,他们构建了在 MSA 上训练的离散扩散模型,以产生新颖的 single lines。

在序列空间中创建可调节的蛋白质

为了说明其在可调蛋白质设计方面的功效,研究人员在一系列生成活动的谱上检查了序列和 MSA 模型(分别为 EvoDiff-Seq 和 EvoDiff-MSA)。

他们首先证明 EvoDiff-Seq 能够可靠地产生高质量、多样化的蛋白质,准确反映自然界蛋白质的组成和功能。EvoDiff-MSA 通过比对具有相似但独特进化历史的蛋白质来引导新序列的开发。最后,他们表明 EvoDiff 可以可靠地生成具有 IDR 的蛋白质,直接克服基于结构的生成模型的关键限制,并且可以通过利用基于扩散的建模框架的调节功能,在没有任何明确结构信息的情况下生成功能结构基序的支架。

图片

图 2:EvoDiff-MSA 支持进化引导序列生成。(来源:论文)

为了生成具有基于序列限制条件调节的可能性的多样化新蛋白质,研究人员提出了 EvoDiff,一种扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff 可以通过从序列数据生成本质上无序的区域和支架结构基序,无条件地采样结构合理的蛋白质多样性。

通过引导进行调节,创建的序列可以迭代地调整以满足所需的质量,可以在未来的研究中添加到这些功能中。EvoDiff-D3PM 框架很适合通过指导进行条件调节,因为序列中每个残基的身份都可以在每个解码步骤中进行编辑。

然而,研究人员观察到,OADM 在无条件生成方面通常优于 D3PM,这可能是因为 OADM 去噪任务比 D3PM 更容易学习。不幸的是,OADM 和其他现有的条件 LRAR 模型(如 ProGen)降低了指导的有效性。预计新的蛋白质序列将通过调节 EvoDiff-D3PM 的功能目标(例如序列功能分类器描述的目标)来生成。

EvoDiff 数据要求极低

EvoDiff 的数据要求极低,这意味着它可以轻松适应后续用途,而这只有通过基于结构的方法才能实现。研究人员表明,EvoDiff 可以通过修复来创建 IDR,无需微调,从而避免了基于结构的预测和生成模型的经典陷阱。

图片

图 3:EvoDiff 生成本质上无序的区域。(来源:论文)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多