分享

Nat.Commun | 具有学习潜力的蛋白质序列设计

 DrugAI 2022-04-19

本文给大家介绍的是斯坦福大学生物工程系的Namrata Anand发表在nature communications上的文章《Protein sequence design with a learned potential》,在这篇文章中,作者团队提出了一个深度神经网络模型,该模型可以针对蛋白质骨架设计序列,它可以直接从晶体结构数据中学习,不需要任何人类指定的先验知识。该模型可以泛化到训练期间未见过的拓扑,从而产生实验上稳定的设计。通过对TIM-barrel的通用性的评估,作者团队的发现证明了一种完全学习的蛋白质序列设计方法的可操作性。作者团队探索了一种方法,其中神经网络不仅用于设计序列,而且可以明确构建旋转异构体并评估全原子结构模型,这是迄今为止尚未报道的方法。

1

介绍

随着深度学习系统的出现及其从高维数据中学习的能力,现在我们可以构建学习蛋白质序列和结构的复杂功能的模型,包括蛋白质骨架生成模型和蛋白质结构预测模型;因此作者团队考虑是否可以使用完全学习的方法来设计与能量函数方法相当的蛋白质序列。他们假设,通过训练一个以局部骨干结构和化学环境为条件的模型,网络可能会学习残留水平模式,使模型无需微调即可泛化到具有训练分布之外的拓扑的新骨干,从而生成具有新的结构和功能的从头设计的序列。

2

模型

作者团队认为以化学环境为条件的模型可以学习与序列设计相关的高阶相互作用。此外,大多数能量函数对特定的原子平面高度敏感,因此,设计的序列可以收敛于给定的起始骨架构象

学习过程:通过(1)迭代选择候选残基位置,(2)使用神经网络模型对氨基酸类型和构象进行采样,以及(3)通过模拟退火优化模型下序列的负伪对数似然,将序列设计到固定的蛋白质骨架上。

图1. 算法流程

神经网络模型经过训练以自回归方式预测残基类型和旋转异构体角度,以真实数据为条件(黑色)。经过训练的分类器预测氨基酸类型以及以氨基酸类型为条件的旋转异构体角度。交叉熵损失目标以粉红色显示。

图2 自回归模型训练

3

结果

3.1 算法泛化到未见过的骨干拓扑

作者团队从测试集中评估算法对本地骨干的泛化程度,这些骨干具有模型在训练期间未见过的CATH定义的拓扑。

为了验证完全学习的方法,他们尝试让模型以完全重新设计给定起始主干的序列。如果模型已经泛化,它应该能够在设计过程中在一定程度上恢复天然旋转异构体和序列,以及设计折叠蛋白中常见的关键结构和生化元素

通过 Rosetta ab initio 应用程序。模型设计比 50% 的随机扰动控制实现了更好的恢复,这表明原生骨干的紧密恢复是由于模型学习的特征,而不仅仅是由于与原生的序列同一性。有趣的是,模型设计集中在一些序列特征上,这些特征在天然序列中看不到,但出现在同源序列中。

图3 在 104 个折叠轨迹中具有最佳模板-RMSD 和 Rosetta 能量总和等级的折叠结构。(诱饵(蓝色)与天然骨架(粉红色)对齐。在结构下方报告了与天然相比的序列同一性和 RMSD (Å))

鉴于该方法在这些序列质量指标下的强大性能,作者团队寻求进一步确认模型设计在表达、可溶和折叠的性能。在测试的 16 种设计中,15 种在细菌中表达良好,10 种在圆二色性(CD)波长扫描下折叠良好。对于每个测试用例,4 个设计中至少有 1 个出现折叠并在 CD 下具有预期的二级结构特征。

3.2 从头设计

为了评估该模型是否可以对从头结构进行序列设计,作者团队在Rosetta生成的四重对称从头TIM-barrel骨架上测试了他们的方法。

该模型设计的所有折叠蛋白质都具有比原始研究中报告的初始设计更高的热稳定性。

图4 TIM-barrel结构的圆二色性 (CD) 数据:(左)CD 波长扫描的平均残留椭圆率 ΘMRW (103deg cm2 dmol−1 )在 20°C(蓝色,实心),在 95°C 熔化(橙色,虚线),然后再次冷却至 20°C(绿色,虚线) )。(右)在 222nm 处监测 CD 信号 θMRW (103deg cm2 dmol-1) 的热熔解曲线。

4

总结

结果表明,由完全学习的神经网络潜力引导的设计算法可以为固定骨架结构生成可行的序列,并且可以泛化到未见过的拓扑结构和从头设计的骨架。该方法很灵活:设计协议很容易允许在设计过程中添加特定位置的约束,并且可以使用其他神经网络模型(例如图形网络或旋转等变网络)来代替分类器网络,而无需进行根本性的改变方法。

值得注意的是,设计算法反映了能量函数的关键特征,例如(1)准确确定侧链构象的能力,(2)区分蛋白质的疏水内部和极性外部,以及(3)设计氢键网络.对于经典的分子力学力场,捕捉这些效应需要准确描述范德华、溶剂化、氢键以及许多其他相互作用的术语;它还可能需要独立的氢键网络搜索算法和来自旋转异构体库的离散侧链表示。这种方法不需要这些。与能量函数开发相比,该模型只需要几个小时来训练。

参考资料

Anand, N., Eguchi, R., Mathews, I.I. et al. Protein sequence design with a learned potential. Nat Commun 13, 746 (2022).

 https:///10.1038/s41467-022-28313-9

代码

https://github.com/ProteinDesignLab/protein_seq_des

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章