分享

两大团队将扩散模型应用于生物医药,可按需合成全新蛋白质,精确度更高,目标是设计出更有效的蛋白药物

 生辉 2022-12-09 发布于甘肃

穿着圣诞毛衣的企鹅、牛油果形状的扶手椅、一个长颈鹿乌龟再到骑马的宇航员、玩滑板的熊猫靓仔......OpenAI 旗下的 DALL-E 以及 DALL-E2 模型让这一切成为现实,这些模型实现了语言与图像的联动,只需输入一段文本,不论多离谱,都能自动生成图片。

这些程序的底层技术之一就是扩散模型(diffusion models),DALL-E2 模型也是扩散模型中的“佼佼者”。这项技术被视为当下深度生成模型中的新 SOTA。多项研究显示,扩散模型在图片生成任务中超越了原 SOTA——生成对抗网络 GAN,并在多个应用领域有出色的表现。

SOTA(State-of-the-Art)是用于描述机器学习中取得某个任务上当前最优效果的模型。

现在,这项底层技术已经被应用于生物医疗领域,设计全新的蛋白质。近日,华盛顿大学 David Baker 研究团队和 AI 制药初创公司 Generate Biomedicines 的科学家团队宣布基于扩散模型设计生成了全新蛋白质且精确度更高,两个团队的研究论文均已上传。

其中,David Baker 研究团队搭建了一个基于扩散模型的蛋白质设计程序——RoseTTAFold Diffusion,并表示程序可以生成全新的蛋白质;Generate Biomedicines 开发了一个称之为 Chroma 的程序,并将该程序描述为生物学领域的“DALL-E 2”。

(来源:bakerlab)

(来源:Generate Biomedicines)

官方的资料显示,这些蛋白生成程序可以指导设计和生成具有特定性质的蛋白质,比如说形状、大小或功能。这使得按需设计出具有特定功能的蛋白质成为可能。研究人员还表示,希望这些进展能促进开发出更有效的药物,为药物开发和医疗健康领域提供更多解决方案。

在 2022 年 5 月共同开发了首批蛋白质生成扩散模型的研究人员 Namrata Anand 指出,Chroma 和 RoseTTAFold Diffusion 的重大意义在于,这两个程序采用了扩散模型并将其进一步扩大化。比如说扩大了训练规模,利用更多的数据和计算机进行训练。

两大团队优化扩散生成模型,可按需生成全新蛋白质

上文提到 DALL-E 和 DALL-E 2 采用扩散模型生成了非常逼真的高质量图像。其中使用的扩散模型是当前一类最先进的生成模型,能够生成多样化的高分辨率图像。这也是经过训练的神经网络算法,专门用于添加和去除“噪声”。生成图像时,扩散模型会从静态的颗粒状开始,逐渐去除噪声,直到形成清晰的图像。软件的其他部分也会指导去噪过程,帮助新图像最终与给定目标相匹配。

不久前,已有科学家将扩散程序引入蛋白质设计和生成过程中。这些研究已表明扩散模型是应用于蛋白质生成极具前途的技术手段,不过这些研究还处于概念验证阶段。以这项研究工作为基础,两大研究团队开发出了 Chroma 和 RoseTTAFold Diffusion 模型,据悉,这也是首批可用于精确设计和生成蛋白质的成熟程序。

Generate Biomedicines 是一家由 Flagship Pioneering 于 2018 年孵化成立的 AI 制药公司,专注于蛋白质药物开发。成立,至今已斩获 3.2 亿美元融资,今年初,安进与该公司达成共计 19 亿美元的合作。该公司旨在开发一个突破性药物研发平台,可以快速生成全新的定制蛋白质药物,并揭示蛋白质复合物的通用原理,预测所需的目标新型结合剂。

根据 Generate Biomedicines 官网的介绍,Chroma 是一个蛋白质和蛋白质复合物生成模型,能够基于几何和函数编程指令生成新的蛋白质分子。具体而言,从蛋白质数据库中学习蛋白质和蛋白质复合物的三维结构和氨基酸序列的结构,引入扩散模型算法,折叠成全新的蛋白质。

Chroma 系统整合了不同的机器学习组件,包括用于处理和调控 3D 分子信息的新型神经网络架构、聚合物扩散模型、随机图神经网络以及低温采样算法。根据官方的说法,基于组件的创新,Chroma 能够在单个商用 GPU 上几分钟内生成非常大的蛋白质和蛋白质复合物。

(来源:Generate Biomedicines 官网)

值得一提的是,Chroma 能够以目标结构或者功能特性为条件生成符合预先指定形状、属于同一种属等要求。

Generate Biomedicines 方面表示,Chroma 程序实现了一种可编程蛋白质设计的新模式,这种模式为生成特定和量身定制的蛋白质解决方案提供了可行性。

David Baker 研究团队的方式略有不同,但取得的结果比较类似。RoseTTAFold Diffusion 是一种结合结果预测网络和生成扩散模型的蛋白质设计方法。研究团队指出,RoseTTAFold Diffusion 基于对 AlphaFold2 和 RoseTTAFold 等结构预测方法中对蛋白质结果的深入理解,优化改进了蛋白质设计的扩散模型,开发出了生成全新蛋白质的引导扩散模型(guided diffusion model)。

这种称之为 RF 扩散(RF diffusion)的新方法能够预测蛋白质结构,并提供蛋白质各部分如何组合在一起的信息,然后使用这些信息指导整个蛋白质生成过程。按照此前的设计方法,设计出一个能发挥作用的蛋白质分子,可能需要测试数万个分子。而使用团队开发的 RF 扩散设计方法,只需检测一个分子即可。

▲图 | RF 扩散可以产生与分子靶标结合的新型蛋白质(来源:华盛顿大学官网)

▲图 | RF 扩散可以用来生成对称或不对称低聚物。(来源:华盛顿大学官网)

研究团队还表示,这些揭示了扩散模型在蛋白质设计中的重要价值,这非常令人兴奋,现在才刚刚开始。

官方资料显示,RF 扩散方法的计算成功率很高,研究团队也在实验室中测试了数百种基于 AI 生成的蛋白质,并认为其中很多蛋白质有潜力应用于药物、疫苗甚至新型纳米材料。

“归根到底是要设计出有效的药物”

蛋白质是生命活动的物质基础。当人体内蛋白质出现异常病变时,通常会引发相关疾病,因此蛋白质也是一类成药的主要靶点。

蛋白质的一级结构决定其三维结构,蛋白质的结构也最终决定了其功能。这表明根据需求和目标功能生成不同结构的蛋白质至关重要。AI 模型的重要价值在于帮助生物学家扩展天然蛋白质组成库,并按需制造新的药物。

Generate Biomedicines 和 David Baker 研究团队都利用各自的模型展示了全新蛋白质的设计和生成。这些模型设计出了具有多种对称性的蛋白质,包括圆形、三角形、六边形的蛋白质。为了证明其程序的多功能性,Generate Biomedicines 研究团队生成了形状像 26 个拉丁字母和数字 0 到 10 的蛋白质。同时,这两个团队均可以生成蛋白质片段,新的部分可以与现有的结构相匹配。

不过,在实验室利用 AI 设计的蛋白质可能并不具备特定功能,或者说大多数实验室设计的蛋白质应用价值并不明显。也就是说,在计算机中设计出蛋白质只是万里长征的第一步,真正的目标是将这些设计转化为具有特定功能或者应用价值的蛋白质。

为了验证应用性,Generate Biomedicines 提取了一些设计的氨基酸链序列,并通过另一个人工智能程序执行。他们发现,其中 55% 的蛋白质会折叠成 Chroma 合成的结构,这表明 Chroma 设计的蛋白质具有应用性。

Generate Biomedicines 联合创始人兼首席技术官 Gevorg Grigoryan 指出,发明和设计新蛋白质只能算是药物研发的第一步。作为一家生物制药公司,归根到底,我们最关心的是能否制造出有效的药物。蛋白质药物首先需要通过量产这一关,然后在实验室中进行测试,最后才能在人体上进行测试,这些过程可能需要数年时间。我们的目标是找到加快这些步骤的办法。

David Baker 也在实验室基于 RoseTTAFold Diffusion 设计了一些蛋白质并进行了评估。比如说,他们在模型中输入甲状旁腺激素,然后让模型制造一种可以与该激素结合的全新蛋白质。当测试这种生成的新型蛋白质时,发现这种合成的蛋白质与激素的结合比使用其他计算方法合成的蛋白质以及现有药物结合更紧密。

该团队还认为,其模型可能比 Generate Biomedicines 走得更远。“现在,RoseTTAFold Diffusion 不仅仅是概念验证了,我们已经可以用该模型生成精确度很高且性能俱佳的蛋白质。”

另一方面,论文中还提到,RF 扩散的功率和范围也可以向多个方向扩展。比如说 RF 扩散技术最近已扩展到核酸和蛋白质-核酸复合体,利用 RF 扩散技术可以设计出核酸结合蛋白或者 RNA 三维结构。此外,RF 扩散技术也可以扩展到设计小分子结合蛋白。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多