分享

Nat. Biotechnol.| 基于细胞内光交联质谱和深度学习的蛋白结构预测

 DrugAI 2023-04-01 发布于韩国

这次为大家报道的是Nature Biotechnology 上一篇题为” Protein structure prediction with in-cell photo-crosslinking mass spectrometry and deep learning” 的文章,来自德国柏林工业大学机器人与生物学实验室的 Oliver Brock团队。

这篇论文介绍了一种名为AlphaLink的方法,它是AlphaFold2算法的改进版本,将实验距离约束信息集成到其网络架构中。通过使用稀疏的实验约束作为锚点,改善了AlphaFold2在预测具有挑战性靶点的性能。作者使用非规范氨基酸光亮氨酸来进行交联质谱实验,从而在细胞内获得残基-残基接触信息,从而在实验上证实了这一点。该模型可以根据提供的距离约束预测蛋白质的不同构象,展示了实验数据在驱动蛋白质结构预测方面的价值。

介绍

AlphaFold2在CASP14中表现出了前所未有的能力,预测了三分之二的CASP靶点,其与天然主干路径的偏差约为1Å(RMSD)。AlphaFold2在蛋白质数据库(PDB)中的蛋白质结构和多序列比对(MSAs)两个信息源上训练。这种方法受到进化信息不足的靶点的挑战,产生不太可靠或错误的预测。对于某些类型的蛋白质,如病毒蛋白质、来自未被研究的生物的蛋白质、抗体和合成蛋白质,以及与临床相关的突变,进化信息可能会误导。此外,模型下的X射线结构很难反映结构的灵活性、多重构象和动态相互作用。在溶液中观察到的蛋白质的结构约束,可以帮助解决这些问题。在AlphaFold2框架中加入这样的约束,可以使预测转向在特定条件下发生在原位的结构状态。

交联质谱 (MS) 能够提供可用于蛋白质结构预测的距离限制。特别是光反应性氨基酸 (photo-AA) 很容易被原核和真核细胞掺入,而光化学可以准确地代表溶液中的整体。此外,photo-AA交联产生相对紧密的距离限制,与协同进化接触很好地对齐,这是大多数蛋白质结构预测方法的基础。它们在理论上能够通过反应性卡宾或烷基重氮中间体从侧链到任何重原子进行“零长度”交联。

结果

AlphaLink:通过OpenFold将交联技术集成到AlphaFold2中

交联质谱数据已用于指导蛋白质-蛋白质相互作用研究中α-折叠多聚体的候选选择。为了充分利用交联质谱数据在蛋白质结构预测中的潜力,作者将交联直接结合到OpenFold(AlphaFold2一个可训练的版本)中的框架。OpenFold主要利用共同进化的关系,在距离空间和三维空间中运行。photo-AA交联质谱数据提供的距离限制自然适合于OpenFold的距离空间,因为它们通过二氮嗪化学直接连接氨基酸产生类似于共同进化接触的距离。交联的稀疏性可以用协同进化信息来补偿。在这些情况下,准确的交联数据可以作为锚点。AlphaLink利用这种关系,通过Evoformer合并交联MS和协同进化数据,将交联注入对表征(Z),产生一致和统一的约束集(图1)。

实验数据可以表示为软标签或距离分布(distograms)。在软标签的情况下,每个接触都由数据集的链接级误发现率(FDR)的权重加权(1-FDR),或者由每个约束的FDR加权,以表示对交联分配的信心。特定的交联剂由距离分布表示。类似于接触的约束可以由给定截止值的均匀分布的distograms表示。作者通过根据FDR调整概率质量来直接建模不确定性。

嵌入过程类似于AlphaFold2中的循环嵌入。Evoformer同时更新MSA和对表征。检索过程受到包括用户提供的实验交联信息在内的对表征的偏置。外积平均值进一步更新对表示。这种耦合最大化了MSA和实验信息之间的协同作用,并允许网络执行噪声拒绝,即拒绝错误分配的实验或共同进化关系或不支持其他信息串的接触,从而导致一致的模型。研究人员使用AlphaFold2的原始权重初始化了OpenFold,并使用新添加的交联偏置对网络进行微调。他们遵循了AlphaFold2论文中概述的精化训练方案,但是他们对有效序列数(Neff)进行了子采样,以模拟具有挑战性的靶点。由于训练实验交联数据的可用性有限,他们模拟了包括给定FDR的假残基-残基接触形式的模拟实验噪声的光交联MS数据。

图 1. AlphaLink中的信息流概述

集成photo-AA交联实现对具有挑战性靶点的抗噪声预测

作者在 49 个具有挑战性的 CAMEO 目标上测试了 AlphaLink(图 2a)。AlphaLink 优于 AlphaFold2,显着提高了超过20个交联的靶点的性能。整合Photo-leucine (photo-L)数据可将 TM 分数平均提高 19.2 ± 16.3%(95% 置信区间)(图 2a)。将交联编码为直方图实际上执行相同。

作者进一步策划了第二个基准数据集,其中包含60个CASP14靶点和45个CAMEO靶点。为模拟具有挑战性的靶点并控制 MSA 的影响,将MSA子采样到Neff=10并忽略结构模板。这里AlphaLink将TM分数平均提高了15.2%。对于特别具有挑战性的靶点(N = 28),其中AlphaFold2无法预测正确的折叠(TM分数≤0.5),TM分数平均提高 50.6%(图 2b)。AlphaLink预测了其中14个的正确折叠(TM分数>0.5)。作者通过添加虚假链接来模拟多个噪声级别,在60个CASP14靶点上测试了AlphaLink的噪声抑制能力。该性能在10%、20%或50%的错误链接(图 2c)下大致保持不变,并且仍然优于 AlphaFold2,证明了AlphaLinks对不同噪声水平的鲁棒性。总体而言,该方法在三次循环迭代后平均达到 85 ± 1.2%(95% 置信区间)的交联满意度(<10 ÅCα–Cα),模拟交联的 88.3 ± 1.2%(95% 置信区间)< 满足晶体结构中的 10 Å Cα–Cα。

交联信息与共同进化和结构信息相结合,作为偏置用于检索与实验数据一致的接触。这有效地提高了在AlphaFold2中使用共同进化信息的效率。

在没有足够大的MSAs的情况下,AlphaFold2和AlphaLink的性能都会下降。交联可以弥补较小的MSA大小。事实上,仅使用photo-AA交联而没有任何MSA信息就可以预测出43/105个基准靶点的正确折叠(TM分数> 0.5),而没有MSA信息的AF2仅可以预测出13/105个基准靶点的正确折叠。在所有靶点中,TM分数的平均提高率增加到75±13.5%(95%置信区间)(图2f)。

交联的好处随着Neff>50而慢慢消失。这至少部分是因为当使用完整的MSAs进行预测时,大多数交联已经得到满足。作者的网络适当地将交联MS信息与MSAs进行加权,并将其用于引导预测更准确的解决方案,而不是找到适合交联的任何解决方案。总之,AlphaLink使用户能够使用稀疏的距离约束来偏置AlphaFold2预测,在推理阶段直接处理噪声,这是由于它们在网络设计中的协同实现。

图 2.AlphaFold2与AlphaLink的性能比较

Photo-L作为原位结构探针

研究人员通过交联MS技术,对生长在含有photo-L的培养基上的细胞进行交联,从而获得了E. coli膜分离物的原位结构约束。研究人员优化了生长协议,以最大化结构约束的获得,同时保持低细胞毒性(750μM photo-L在培养基中),紫外线照射交联细胞,然后富集交联细胞的细胞膜。蛋白质被消化,产生的肽段经过二维分离,结合强阳离子交换和大小排除色谱。质谱分析随后产生了615个残基对的鉴定,涉及112个蛋白质,FDR为5%(图3a)。在β桶蛋白和内膜空间蛋白中检测到了几个交联。当在已知的蛋白质结构上可视化时,实验交联提供了11.1±8.1Å Cα-Cα(平均±标准偏差)的中位距离(图3b),表明这些交联的接触类似于它们在AlphaLink中的实现。这进一步得到了支持,因为作者在分析中排除了同一酶解肽段内和相邻肽段之间的交联。

这些交联提供了蛋白质的原位结构约束,可以用于验证多蛋白复合物的构象。这些交联与细菌外膜桶状组装机械(Bam)的已知构象一致。然而,P2和P3域之间的链接突出了这些模块的灵活性,这些模块已知在外膜蛋白质的折叠和插入中经历大的结构重排。OmpA是一种高丰度的蛋白质,共检测到了153个交联。OmpA由一个β桶通过一个20个残基的连接器连接到一个C端域。它的β桶、连接器和C端域之间的交联突出了这些模块的相对灵活性,并指向C端域的多个拷贝之间可能存在的接触。在一些含有塞子的β桶蛋白中,photo-L将中央塞子的位置与膜桶连接起来,这与以前的结构一致,验证了这两个模块在蛋白质的功能周期中的排列。这些交联突出了photo-L提供原位残基-残基接触的潜力,这种接触在蛋白质的折叠和功能中起着重要作用。这些交联还可以用于验证蛋白质的结构模型,如AlphaFold2生成的模型。

图 3. 原位光-L交联质谱在大肠杆菌中的应用

利用原位photo-L数据进行构造预测

研究人员预测了E.coli膜分离物的交联MS数据集中的蛋白质,重点评估了具有高分辨率结构的31个靶点,这些靶点具有中位数为5的交联(图4)。每个靶点使用Neff=10的10个随机子采样MSA进行预测,共得到310个预测。作者对MSA进行了子采样以抵消过度拟合,因为这些靶点可能是AlphaFold2的训练集的一部分。即使在Neff=10的情况下,65%的AlphaFold2预测超过了TM分数0.8,相对于AlphaFold2,AlphaLink平均提高了5.2±1.9%(95%置信区间)。对于AlphaFold2无法提供准确模型的靶点,AlphaLink与实验数据相比,平均提高了15.9±4.6%(95%置信区间)的TM分数。对于AlphaFold2预测低于TM分数0.5的目标,这种改进增加到了47.8±24.8%(95%置信区间)。作者预测了另外10个蛋白质的正确折叠(TM分数>0.5)。这表明,模拟的交联MS数据成功地模拟了实验photo-AA约束的特征。对于TM分数为0.8或更高的204个AlphaFold2预测,性能不受影响。在高TM分数下,侧链构象开始发挥作用,交联MS数据没有必要的分辨率来提高侧链预测。对于TM分数为0.8或更高的204个AlphaFold2预测,性能不受影响。

图 4.利用大肠杆菌膜组分的胞内光-L交联质谱数据预测结构

原位探测构象动力学

研究人员在人类细胞周期蛋白依赖性蛋白激酶Cdk2上模拟了一个概念验证实验,以探究实验距离约束是否可以作为锚点,将预测驱向多态蛋白质中不同能量最小值。Cdk2的激活是通过T环(残基145-165)和PSTAIRE螺旋(残基45-55)的构象变化触发的,这是癌症治疗中的一种药物靶标。Cdk2有多种激活状态的结构。如果使用AlphaFold2(Neff=10)预测Cdk2而没有结构模板,则T环的预测处于自由状态、自我抑制状态和与环A结合状态之间的中间构象(图5a)。这个环的中间构象在AlphaFold2预测中的出现,可能是由于共同进化信息将其驱向开放和关闭状态。当使用完整的MSA信息运行时,所有AlphaFold2预测都会收敛到环A结合状态(扩展数据图5a),无法预测非活性构象。作者模拟了两个光交联MS实验,其中蛋白质分别处于抑制状态或环A结合状态,生成了T环的两组稀疏约束(补充表1)。这种实验可以在纯化蛋白质或在蛋白质纯化之前的细胞中进行。然后,作者使用这些约束使用AlphaLink预测Cdk2的结构,结果表明,环结构被驱向适当的构象(图5b)。

图 5. Photo-AA数据指导特定构象状态的预测

总结与讨论

AlphaLink是一种将来自photo-AA标记细胞的交联MS约束集成到AlphaFold2中的方法。在深度学习框架中合并光交联MS和MSA信息使作者能够利用它们各自的优势并弥补它们的弱点。作者的方法使用实验数据来偏置Evoformer更新对表征的共同进化关系的检索。AlphaLink体系结构的迭代性质导致噪声拒绝和对实验误差的鲁棒性。作者实现的实验约束也适用于其他具有类似体系结构的方法,例如OmegaFold。本研究的结果是通过使用模拟的photo-AA数据来优化AlphaFold2模型参数实现的,由于计算资源限制,作者无法完全重新训练OpenFold网络以推导模型参数。尽管如此,结果表明,由于加入photo-AA约束,预测质量得到了改善。与AlphaFold2相比,预测时间增加了1.4倍。AlphaLink提供了一个框架,用于训练AlphaFold2风格的预测器,其中提供了一些数据源,提供接触或距离约束,例如突变、核磁共振约束和使用不同交联剂进行的交联MS。作者使用模拟的sulfo-SDA交联剂对网络进行了微调,并成功预测了测试集。作者使用合成数据对AlphaLink进行了验证,这些数据不是AlphaLink或AlphaFold2的一部分,并使用细胞内photo-L交联MS数据验证了AlphaLink。交联MS提供了具体的距离信息,可以用于验证或否定氨基酸之间的接触关系。在AlphaLink中,交联MS数据被用作偏置,以更新对表示的共同进化关系的检索。AlphaLink体系结构的迭代性质产生了噪声拒绝和对实验误差的鲁棒性。

AlphaLink使用photo-AA交联MS数据作为距离信息,通过一系列的迭代过程,将实验数据与进化信息相结合,提高了蛋白质结构预测的准确性。与其他方法不同的是,AlphaLink使用实验数据来驱动多构象状态的预测,而不是依赖于MSA的操作。由于算法将实验证据与进化信息进行权衡,因此MSA的性质和大小在驱动预测方面起着重要作用。因此,高Neff可能会“压倒”实验证据。在这方面,对MSA进行子采样是调整MSA权重的一种方法。在KaiB和selecase的分析中,AlphaLink可以使用多个MSA子采样或甚至与序列聚类相结合,以表征给定实验和MSA证据组合的完整构象范围。有趣的是,在KaiB和Cdk2的情况下,使用来自构象混合物的交联运行AlphaLink导致预测与低Neff时的一个状态重合,然后在中间预测,最后在高Neff时预测另一个状态。总之,这种方法可以通过在细胞内进行光交联实验,获取蛋白质的结构信息,并使用深度学习算法来预测蛋白质的三维结构。这种方法可以在不需要纯化蛋白质的情况下,直接在细胞内进行结构预测,具有很大的应用潜力。

方法

文章中有关的数学公式定义、推导在该部分中,感兴趣的朋友可以访问原文进一步学习。

参考资料

Stahl, K., Graziadei, A., Dau, T. et al. Protein structure prediction with in-cell photo-crosslinking mass spectrometry and deep learning. Nat Biotechnol (2023). 

https:///10.1038/s41587-023-01704-z

代码

https://github.com/lhatsk/AlphaLink

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多