分享

EMBO Reports | 生物学中的人工智能革命:AlphaFold的优势和劣势

 DrugAI 2022-04-19

本文介绍由荷兰癌症研究所的Anastassis Perrakis教授和Titia K Sixma博士发表在 EMBO Report的研究成果,作者指出人工智能正被用于解决蛋白质折叠问题,文章主要包含四方面内容:(1) 利用人工智能系统Alphafold预测蛋白质三维结构;(2)AlphaFold模型结构;(3)AlphaFold存在的局限性;(4)人工智能的最终目标不是高准确率的模型,AI预测的结果须经过实验验证。

1

简介

2020年12月人工智能(AI)系统AlphaFold近乎完美地预测了蛋白质三维结构,然而这一成就并不意味着人工智能将使实验结构生物学变得多余,结构生物学对于理解蛋白质的工作原理以及它们之间如何动态地相互作用仍是至关重要。

谷歌DeepMind团队和美国西雅图华盛顿大学贝克实验室公开发布 AlphaFold及RoseTTAfold算法代码,解释实现蛋白质折叠预测的深度学习(DL)算法。DeepMind团队与欧洲生物信息学研究所(EBI)合作,并将AlphaFold应用于全基因组,包括人类、小鼠、酵母菌和大肠杆菌。

2

蛋白质折叠问题

蛋白质折叠涉及重新排列空间中的线性氨基酸序列,使其处于低能状态。仅基于氨基酸序列预测正确的三维结构非常困难,其原因在于肽键的自由组合会产生大量的可能性:即使对于一个小的蛋白质进行结构域顺序抽样,耗费的时间都将超过宇宙的年龄,因此计算预测是为了规避顺序抽样问题。在过去的40年里,计算预测一直在稳步改进,通过X 射线晶体学、核磁共振波谱和低温电子显微镜(cryo-EM)等实验确定蛋白质结构序列的同源性。自1994年起,每两年通过将计算预测方法应用于最新解析的蛋白质结构评估其性能。三年前,AlphaFold的首次实施已经是将人工智能应用于解析蛋白质结构的革命性进步。2020年,重新设计的AlphaFold近乎完美地精确预测出了蛋白质三维结构,其预测水准与实验室水平相差无几,一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。

3

AlphaFold模型

AlphaFold联合众多深度学习创新知识去抽取存储在序列和结构数据库中实验科学的综合知识,AlphaFold利用保守肽结构信息及进化偶联残基进行多序列分析。这种共同进化的思想相对简单:如果两个残基在空间上很近且相互作用,即使在氨基酸序列上相距很远,也会在进化过程中粘在一起以保持结构和功能。DeepMind团队还进行了一些巧妙的创新,创造性地使用自然语言处理中的概念和算法,使用旋转不变函数将一维序列连接到三维结构空间,再加上强大的处理能力和大量的时间,人工智能能够学习氨基酸序列如何折叠到空间中。AlphaFold数据库中丰富的结构提供了很好的资源。它包括结构的交互式图形表示和颜色编码方案,以指示预测每个氨基酸位置的可信度,并利用矩阵表示残差间距离的置信度。若用于比对的蛋白质序列很少,或针对不可折叠的区域,则AlphaFold难以表现出较好的预测性能。

AlphaFold模型优势在于其不仅提供单个折叠单元(域)的精确模型,而且给出了它们之间动态运动的迹象。USP7就是一个典型例子,图1显示AlphaFold预测的结构和接触矩阵,其中深绿色方块为单个域。结构域之间的相互作用:N端TRAF结构域优先与催化(CD)结构域相互作用,后面的五个泛素样结构域(UBLs)形成两组,Ubl1-3和Ubl4-5,从结构中可清楚地看出前三个与CD有良好的相互作用,而后两个则没有。

图1 USP7的AlphaFold预测

4

模型局限性

AlphaFold模型最显著的局限为数据库中缺乏伙伴蛋白质或多聚体的相互作用。人工智能也难以预测蛋白质结构的其他几个重要方面:金属离子、辅助因子和其他配体,也不存在如糖基化或磷酸化,或DNA、RNA及其复合物。此外,氨基酸侧链并非总是被准确放置。这些特征都可能对蛋白质功能至关重要,其中许多对于折叠的完整性是必需的。

尽管有这些限制,AlphaFold仍然正确地预测了血红蛋白链的标志性折叠(图2 A-C)。AlphaFold并没有解决在溶液和细胞中出现的折叠问题,但它提供了一个实际的解决方案:它已经学习了在氨基酸残基接触水平上折叠的结果,因此可以准确预测单链血红蛋白自身或不存在的血红蛋白折叠。另一个示例是CENPE驱动蛋白模型(图2 D-F):从电子显微镜数据和二级结构预测中,正如AlphaFold根据单体预测的那样,它没有解决蛋白质折叠需要依赖于二聚作用的螺旋结构。

图2 AlphaFold模型的局限性。

AlphaFold模型是一个非常有用的资源。然而,用户应该考虑到该方法的局限性。如果结构预测被单纯地使用和解释,它可能会导致错误的假设或有着明显错误的模型。

5

AlphaFold模型的发展方向

AlphaFold预测最重要的局限性是只能预测单个状态,即使数据中包含多个状态和动态行为的提示,并且AI捕获蛋白质的状态也不精准。图3显示了两个例子:有丝分裂蛋白Mad2,其中两条链经过重排形成一个“安全带”:AlphaFold错误地捕获了Mad2单独的复杂状态。另一个例子是丝氨酸蛋白酶抑制剂,在蛋白水解裂解后,AlphaFold正确捕获未水解的状态。

图3 折叠重排

另一种情况是蛋白质进行重新排列的情况如图4所示,从一系列cryo-EM实验中确定的DNA错配蛋白MutS的不同状态。AI只能预测单一状态,不能解释功能行为。

图4 MutS的功能状态

找出为什么还有一些无法被AlphaFold 预测的蛋白质区域是很重要的。随着更多可用的结构和序列以及方法的进一步改进,预测不佳的蛋白质的比例可能会减少。AlphaFold 模型已经对结构生物学研究起积极作用,最重要的是,对模型本身的分析可以产生关于蛋白质功能的新的和可检验的假设。从这个意义上说,人工智能为结构生物学家提供了一种新技术,无需进行实验工作,即可查看结构。然而,随着模型变得更容易获得,发现新结构的能力将消失,解释它的动力和热情也可能消失。此外,还有人们不太倾向于制备高质量的蛋白质,而这种蛋白质实际上比测定结构更适用于许多实验。因此,下一代生物学家学习如何批判性地分析被预测出的蛋白质折叠并注意新的相互作用,以及足够详细地了解每种感兴趣的蛋白质是重要的。

6

对药物发现的影响和机会

高分辨率蛋白质结构对于药物发现有极大的作用。当前药物开发过程的每一步都使用蛋白质结构:从通过晶体或溶液中的片段筛选开始,到改善配体相互作用,再到设计具有良好类药物特性的高亲和力配体。制药行业通过花费大量的投资证明了结构的重要性,如果实验过程可以完全被计算方法取代,对制药行业有巨大的吸引力。当前的 AlphaFold应用尚不具备药物发现所需的准确性。更重要的是,准确预测新配体相互作用的能力可能受限,因为用于结合小分子的公开数据很少。私人数据库中可能有更多数据可用,而 X 射线晶体学和冷冻电镜对碎片筛选的预期加速可能会改变这种情况。

目前,药物发现需要实验分析,而人工智能革命可能适得其反。计算模型的易用性可能会导致开发更少的良好方案,较少的良好的衍射晶体或成熟的cryo-EM制备工艺,这些对于药物发现都是必需的,因为X射线晶体学仍然是研究与小分子复合的结构的首选方法,而cryo-EM则是研究与生物治疗剂(如抗体或纳米抗体)复合物的首选方法。

7

人工智能推动的科学范式转变的例子

人工智能(AI)系统预测蛋白质折叠问题不仅是结构生物学中的重要进展之一,也可以说是迄今为止人工智能在科学中最具开创性的应用。Richard Feynman 曾经说过:“如果它与实验不符,那它就是错的”。因此,实验必不可少。病理学家和肿瘤学家应继续对活检或扫描的人工智能分析持批评态度。下一代结构生物学家很可能不再主要是实验方法方面的专家,而是主要负责解释、设计和执行基于结构的实验,证明或否定生物学中的机制,或设计新的蛋白质功能或治疗方法。

可预见在未来的几十年内,实验结构测定不会过时。重要的是投资者和同行评审者不要相信“折叠问题已经得到了解决”。应该继续投资于实验结构生物学所需的关键基础设施和实验结构测定所需的研究。

从基于人工智能的聊天机器人、虚拟助手,到自动驾驶汽车、“智能”机器人吸尘器和割草机,人工智能的用例很多。蛋白质折叠示例使我们了解如何从人工智能模型中获益,同时又不会对其产生过度依赖。归根结底,深度学习算法的发展与人类学习没有什么不同:每天都从实验中学习。

参考资料

Perrakis A, Sixma T K. AI revolutions in biology: The joys and perils of AlphaFold. EMBO Rep.,2021, e54046. 

DOI: 10.15252/embr.202154046.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多