分享

给我一串随机序列,还你一个全新蛋白 ——David Baker团队最新研究成果“想象蛋白”

 DrugAI 2022-04-19

AlphaFold2引爆科研圈的热度还未退散,又一蛋白质设计相关巨作荣登《Nature》。12月1日,蛋白质设计大师David Baker带领的团队在《Nature》上发表了《De novo protein design by deep network hallucination》一文,共同参与创作的还有华盛顿大学、伦斯勒理工学院和哈佛大学的研究人员。

在这项研究中,模型不但能根据氨基酸序列预测蛋白质结构,更让人激动的是,给定一个随机的氨基酸序列,模型就可以根据自己的“想象”折叠成一个全新的蛋白质。利用本方法产生的2000条序列经由trRosetta预测,被证明是合理的、拥有明确结构的“想象蛋白”。同时,将这些序列和结构与天然蛋白质的序列和结构进行比较,“想象蛋白”与天然蛋白质序列的相似性非常低,这也就意味着生成的“想象蛋白”是全新的。

在过去的工作中,既有单纯考虑氨基酸序列生成而不考虑结构折叠的研究,也有只考虑空间结构而忽略序列生成的模型,在作者看来这些都不是实际意义上的“从头设计蛋白质”,即此类工作都没有解决“在产生新的氨基酸序列的同时也产生新的骨架结构”,而本研究利用深度神经网络很好地解决了这一问题。实验证明,深度神经网络在被大量不规则的天然蛋白质结构训练之后可以学会构造结构合理的蛋白质。下面将对该工作用到的方法进一步阐述。

我们首先需要了解一项视觉领域的优秀工作——DeepDream,因为正是该研究给了David Baker团队很大的启发。

DeepDream是谷歌7年前的一项工作,主要是对模型可解释性进行的探索。对于一个训练好的分类网络,我们想要知道模型学习到了什么样的特征,所以决定输入一张与任务无关的图像,并且要求网络做到“无论你在图像中看到什么,我都想要更多”。这意味着创建了一个反馈循环,希望通过网络对其提取特征,然后反向传播的时候不再更新网络的参数,而是更新图片中的像素点,不断地迭代让网络越来越相信这张图片属于分类任务中的某一类。也就是说,如果该网络主要针对动物图像进行训练,那么对于输入的图像会自然而然地倾向于将形状解释为动物,就如对“云”进行遐想:如果一朵云看起来有点像一只狗,网络会让它看起来更像一只狗,即网络进行迭代时,将不断“捏造”这朵“云”,直到出现较为清晰的狗的图像。

图1 DeepDream示例

回到本文,David Baker之前的工作trRosetta已经可以做到根据氨基酸序列精准地预测其结构,在此基础上,如果输入到trRosetta中的序列本身是具有我们需要的蛋白特征的,那么最后折叠出来的蛋白也将具有理想特征。而现在关键的问题是:如何使序列本身具有理想特征呢?DeepDream带给了David Baker灵感,如果能够像DeepDream一样,训练过程中不断“强化”随机氨基酸序列的理想特征,那么最后就将生成具有理想特征的“想象蛋白”。

图2 “想象蛋白”生成模型图

在大量天然蛋白质基础上进行结构预测训练之后的trRosetta,已具备能够捕获蛋白序列和结构信息的能力。因此作者选择将其作为背景网络进而“诱导”输入的随机序列生成新的蛋白质序列。通过实验发现,最初输入到网络中的随机序列生成的残基对距离分布是扩散的,难以折叠为合理的蛋白质,但随着迭代的进行,被优化的序列逐渐合理。最终生成的“想象蛋白”是具有α螺旋和β折叠的蛋白质,但遗憾的是缺乏天然蛋白质结构的长环和其他特性。原因在于,trRosetta本就是基于大量PDB结构进行训练的,而PDB库中就覆盖了蛋白质大部分可能折叠的空间,因此生成的“想象蛋白”可覆盖基础的常规结构,而具有特定特征的蛋白可能还需要进一步加以强化。

该研究只是一个开端,为后续更广阔的发展提供了巨大可能,在将来,我们或许可以根据需求随心所欲地设计具有任何特征的蛋白。

参考资料

Anishchenko, I., Pellock, S.J., Chidyausiku, T.M. et al. De novo protein design by deep network hallucination. Nature 600, 547–552 (2021). 

https:///10.1038/s41586-021-04184-w

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多