分享

Nucleic Acids Res. | AlphaFold DB:大规模扩展蛋白质序列空间的结构覆盖范围

 DrugAI 2022-04-19

今天向大家介绍DeepMind团队发表在Nucleic Acids Research上的一篇Breakthrough文章“AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models”。作者在文章中介绍了一种名为AlphaFold DB的蛋白质数据库(https://alphafold.),它是一个可公开访问的高精度蛋白质结构预测数据库。在 DeepMind提出的AlphaFold v2.0模型的支持下,它使已知蛋白质序列空间的结构覆盖范围实现了前所未有的扩展。该数据库提供了可编程访问及交互式可视化功能,包括预测的原子坐标、每个残基和成对模型置信度的估计,以及预测的对齐误差。AlphaFold DB的初始版本包含21种模型生物蛋白质组中的360,000多个预测结构,很快将扩展到涵盖UniRef90数据集中的大部分代表性序列(超过1亿个)。


1

背景介绍

蛋白质是具有重要生物学功能的大分子,因此参与了广泛的研究活动以及医学和生物技术应用,从抗击传染病到解决环境污染。了解蛋白质原子的三维 (3D) 排列可以为理解支撑蛋白质功能的作用和机制提供重要线索。然而,虽然通用的蛋白质资源 (UniProt) 存储了近 2.2亿个独特的蛋白质序列,但蛋白质结构数据库 (PDB) 仅包含超过55000种不同蛋白质的180000多个3D结构,因此严重限制了序列空间的覆盖范围以支持全球生物分子研究。

用实验确定的高分辨率结构实现更高的序列空间覆盖是非常费时的。例如,通常需要大量反复试验才能找到合适的构建体或使蛋白质易于结晶的条件。尽管电子低温显微镜和用于结构测定领域中混合和综合方法的最新进展,加快了结构测定的步伐,但已知蛋白质序列与实验蛋白质结构之间的差距仍在继续扩大。

缩小这一差距的一种方法是预测数百万蛋白质的结构。研究人员越来越多地使用人工智能技术,仅从蛋白质的氨基酸序列计算来预测蛋白质的结构。

AlphaFold是由DeepMind团队开发的人工智能系统,可根据蛋白质的氨基酸序列对蛋白质结构进行最先进的预测。CASP(结构预测的关键评估)是研究小组每两年一次的挑战,以根据实际的实验数据测试其预测的准确性。2020年,CASP14基准测试的组织者宣布AlphaFold是蛋白质-结构-预测问题的最佳解决方案。AlphaFold前所未有的准确性和速度允许大规模创建一个广泛的结构预测数据库。它将使生物学家能够获得几乎所有蛋白质序列的结构模型,改变他们解决研究问题和加速项目的方式。最近描述了AlphaFold的方法和从对完整人类蛋白质组的预测中获得的见解。

我们展示了AlphaFold蛋白质结构数据库(AlphaFold DB,https://alphafold.),这是DeepMind与EMBL-欧洲生物信息学研究所 (EMBL-EBI) 合作创建的新数据资源。我们创建了AlphaFold DB,以便为科学界免费提供结构预测。此处描述的第一个版本涵盖了人类蛋白质组和其他20种模式生物的蛋白质组(表1)。在接下来的几个月中,我们计划扩大数据库以涵盖所有条目下的大部分蛋白质(来自UniRef90的超过1.3亿个集群代表)。

表1. AlphaFold DB中完整蛋白质组的结构预测

2

执行

AlphaFold DB的初始版本包含超过360000个预测结构、相应的元信息和置信度指标。所有数据都可以通过基于云的基础设施公开访问。我们已尝试预测UniProt参考蛋白质组中 16-2700个氨基酸长度范围内的大多数序列(以及1400个残基片段以覆盖更长的人类蛋白质),用于当前涵盖的生物体。我们排除了包含非标准氨基酸的序列。我们此时不提供多种异构体。

预测的结构包含原子坐标和每个残基的可信度估计值,范围从0到100,分数越高,可信度越高。这种置信度量称为pLDDT,对应于模型在lDDT-C指标上预测的每个残基分数。IDDT是一种预先存在的度量标准,用于蛋白质结构预测领域。IDDT背后的一个关键动机是评估预测的局部准确性,即使整个预测无法与真实结构很好地对齐,也会对预测良好的区域给予高分。这对于评估多域预测尤其重要,其中单个域可能在很大程度上准确,而它们的相对位置则不然。作为基于lDDT的置信度度量,pLDDT还反映了结构中的局部置信度,并且应该用于例如评估单个域内的置信度。其他几种蛋白质结构预测资源也使用基于IDDT 的指标。AlphaFold DB将这些值存储在可供下载的mmCIF和PDB文件的B因子字段中,并使用基于这些值的置信带对结构页面上3D结构查看器中模型的残基进行颜色编码。pLDDT ≥ 90的残基具有非常高的模型置信度,而90 > pLDDT ≥ 70的残基被归类为置信度。70 > pLDDT ≥ 50的残基具有低置信度,而pLDDT < 50的残基对应于非常低的置信度。最近描述了非常低置信度的pLDDT分数与内在疾病的高倾向相关。

预测对齐误差(PAE)是AlphaFold系统的另一个输出。如果预测结构和实际结构在残基y 上对齐(使用Cα、N和C原子),则它表示残基x处的预期位置误差。PAE以 ˚A(埃)为单位测量,上限为31.75 ˚A。科学家可使用这些值来评估模型不同部分(例如两个域)的相对位置和方向的置信度。对于两个不同域中的残基x和y,如果PAE值(x, y)较低,AlphaFold 会预测域具有明确定义的相对位置和方向。如果PAE值很高,那么两个域的相对位置和方向是不可靠的,用户不应将生物学或结构相关性附加到这些上。请注意,PAE是不对称的;因此,(x, y)和(y,x)的PAE值之间可能存在差异,如在具有高度不确定方向的循环区域之间。

3

数据归档

AlphaFold DB存档并提供对PDB和mmCIF格式的原子坐标、JSON格式的 PAE和JSON格式的相应元数据的访问。虽然坐标和PAE文件可以通过URL直接访问,但我们使用开源搜索平台Apache Solr (https://solr./)加载和索引元数据,使用户能够在AlphaFold DB网站上进行搜索。存档中的数据文件是版本化的,以前的数据快照将通过FTP提供,但网页将始终显示最新版本。

4

数据访问

AlphaFold DB通过多种数据访问机制提供预测:(i)通过FTP批量下载;(ii)通过应用程序编程接口(API)进行编程访问;(iii)下载和交互式可视化对以UniProt种质为键的特定蛋白质网页的个人预测。

对于从AlphaFold DB批量下载数据,用户可以访问来自EMBL-EBI公共FTP 区域的每个参考蛋白质组的压缩PDB/mmCIF文件(.gz)的未压缩存档文件(.tar),网址为ftp://ftp./pub/databases/alphafold。该区域包含TAR文件和提供元信息的JSON文件,描述物种名称(科学和常见)、参考蛋白质组标识符、预测结构的数量和档案大小。同样的信息和文件也可以从Al phaFold DB的批量下载页面获得,网址为

https://alphafold./download。

我们通过公共API端点提供对所有条目的访问,以UniProt登录为密钥。例如,端点

https://alphafold./api/prediction/Q92793允许访问与人类CREB结合蛋白相关的所有元信息和所有存档数据文件的URL。UniProt、Pfam、InterPro和PDBeKB使用此API在其网页上显示AlphaFold模型。

AlphaFold DB通过网页为更广泛的科学界提供对所有预测和元信息的图形访问和交互式可视化。这些页面包含感兴趣的蛋白质的所有可用信息,以其UniProt 登录名为关键字。它们允许用户分析预测并下载相应的模型文件(在PDB和mmCIF中)格式)和PAE文件(JSON格式)。

5

AlphaFold DB网页

AlphaFold DB通过一组网页(https://alphafold.)提供对其预测的便捷访问。这些页面包含对AlphaFold系统的介绍、解决最常见的问题、启用完整蛋白质组的批量下载,并提供搜索引擎以查找特定于感兴趣的蛋白质的页面(图1)。用户可以通过基因名称、蛋白质名称、UniProt登录名或生物体名称进行搜索。例如,可以过滤搜索结果以仅显示人类蛋白质。

图1  AlphaFold DB搜索

每个蛋白质都有一个专用的结构页面,显示基本信息(取自UniProt和PDBe)和AlphaFold模型的三个独立输出。前两个输出是3D坐标和每个残基置信度指标 pLDDT,用于在集成的3D分子查看器Mol*中为模型的残基着色。模型置信度可能会在整个链中发生显着变化,因此在解释结构特征之前分析置信度度量至关重要。较低的置信区间似乎与骨干灵活性和内在障碍(图2)相关。

图2 AlphaFold结构预测的元信息和3D可视化。

第三个输出是成对置信度预测,有助于评估相对域位置和方向的可靠性以及蛋白质的全局拓扑(图3)。该图由成对的PAE值着色,它帮助用户识别哪些域相对于彼此可靠地预测了位置和方向,其中深绿色表示高可信度。在图中选择一个区域还会在3D查看器中突出显示序列的相应部分。

图3 预测对齐误差的可视化

6

总结

自1950年代中期以来,科学界一直在使用越来越先进的实验方法来确定超过180000种蛋白质、核酸和复合物的原子细节结构,并将它们存档在PDB中由wwPDB联盟管理的结构数据。这一集体工作极大地提高了我们对健康和疾病的许多基本过程的理解,部分原因在于PDB中沉积的结构的许多诺贝尔奖。最近,确定SARS-CoV-2病毒蛋白的结构使科学家能够了解它的运作方式,同时确定潜在的治疗方法并开发新的疫苗。然而,弄清楚蛋白质的确切结构仍然是一个昂贵且通常耗时的过程。因此,我们只知道目前科学界已知的所有蛋白质的一小部分3D结构。

AlphaFold DB的第一个版本包含来自21个模型生物蛋白质组的超过360000个预测结构。获得这些高度准确的模型将极大地影响生物学,从实现基于结构的药物设计到为将解决基本生物学问题的高通量结构生物信息学研究提供数据。我们已经从人类蛋白质组的预测中获得了一些宝贵的见解。

在接下来的几个月中,我们将扩展AlphaFold DB以提供结构预测,以包括额外的蛋白质组以支持对被忽视疾病的研究,并涵盖SwissProt中高度注释的蛋白质集,使可用结构的数量超过100万。随后将在2022年进行另一次更新,以包括UniRef90数据集中最具代表性序列的结构(> 1亿结构)。未来的更新还将旨在将注释叠加到预测结构上,并在2D序列特征查看器上显示此信息。AlphaFold DB将使生物医学科学家能够使用蛋白质结构的3D模型作为核心工具,通过提供对越来越多的预测结构的开放访问来推动多领域的研究和创新。

参考资料

Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, Galabina Yordanova, David Yuan, Oana Stroe, Gemma Wood, Agata Laydon, Augustin Žídek, Tim Green, Kathryn Tunyasuvunakool, Stig Petersen, John Jumper, Ellen Clancy, Richard Green, Ankur Vora, Mira Lutfi, Michael Figurnov, Andrew Cowie, Nicole Hobbs, Pushmeet Kohli, Gerard Kleywegt, Ewan Birney, Demis Hassabis, Sameer Velankar, AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models, Nucleic Acids Research, 2021;, gkab1061,

 https:///10.1093/nar/gkab1061

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多