分享

综述 | DescribePROT:氨基酸水平蛋白质结构和功能预测数据库

 微科享 2021-04-19

编译:李可爱,编辑:Emma、江舜尧。

原创微文,欢迎转发转载。

导读

随着基因序列数据量的迅速增长,科学家面临着巨大的任务。目前,2020.04版本的UniProt数据库中,从功能和结构上表征新型蛋白质的蛋白质编码区超过1.89亿个。在本文中,我们介绍了DescribePROT数据库,一个氨基酸水平的蛋白质结构和功能的预测数据库。DescribePROT数据库提供了13个互补描述符的综合集合,并且使用10种流行和准确的算法对覆盖关键模式生物体的83个完整蛋白质组进行预测,目前版本包括对140万种蛋白质中近6亿个氨基酸的78亿个预测,描述符包括序列保守性、位置特异性评分矩阵、二级结构、溶剂可及性、固有无序、无序连接子、信号肽、Morfs以及与蛋白质、DNA和RNA的相互作用。使用方面,用户可以根据氨基酸序列、UniProt登录号和条目名称在DescribePROT数据库搜索,计算出的预测结果即为可用数据。DescribePROT数据库不仅可以允许同时分析多个描述符的交互式图形界面来访问预测,还可以在蛋白质、蛋白质组和整个数据库规模上以结构化格式下载预测。DescriPROT数据库包含的假定注释对广泛的研究很有用,包括:蛋白质功能调查、侧重于治疗和疾病的应用项目,以及其他蛋白质序列描述符的预测器的开发。更新版本将扩大DescribePROT数据库的覆盖范围。DescribePROT数据库网址为http://biomine.cs./servers/DESCRIBEPROT/。


论文ID


原名:DescribePROT: databaseof amino acid-level protein structure and function predictions
译名:DescribePROT:氨基酸水平蛋白质结构和功能预测数据库
期刊:NucleiAcids Research
IF:11.501
发表时间:2020.10
通讯作者:Lukasz Kurgan
通讯作者单位:美国弗吉尼亚州里士满,弗吉尼亚联邦大学计算机科学系

内容

现有的大多数数据库及软件对蛋白质的预测都将重点放在氨基酸(AA)级描述符的特定类别上,例如PSIPRED、SCRATCH和MULTICOM数据库主要关注蛋白质结构描述符,而DEPICTER数据里既覆盖结构和功能特性,又覆盖无序区域。D2P2和MobiDB数据库通过预先计算AA级提供了另一种解决方案,它们提供对多个谓词生成的结果的快速便捷访问。然而,D2P2的最新更新时间是2012年,两个存储库都涵盖的假定结构和功能特征集较为狭窄,主要侧重于疾病预测(表1)。更具体地说,D2P2仅涵盖三个描述符(一个结构和两个功能),包括通过九种不同方法预测的内在障碍描述符。同样,当使用十种内在障碍的预测因子时,MobiDB包括四个推定描述符(两个结构描述符和两个功能描述符)。

表1.预测的AA级描述符的数据库摘要

描述符分为三类:结构描述符(Str),功能描述符(Fun)和序列描述符(Seq)

1. 顺序

参考UniProt数据库的2019年08月发布的UniProt参考蛋白质组列表,AA级预测是根据选择的83个完整蛋白质组的序列库进行处理的。UniProt数据库选择的研究目标包括人、小鼠、大鼠、斑马鱼、猕猴、果蝇、酵母、秀丽隐杆线虫、拟南芥、大肠杆菌以及包括疱疹、埃博拉病毒在内的流行病毒、HIV1、麻疹和腮腺炎。数据库中的83个蛋白质组包含136万个蛋白质和接近6亿个氨基酸,覆盖了四个生物分类王国,包括真核生物(具有多个动物界、植物界、真菌和原生动物、细菌、古细菌和病毒的蛋白质组)(表2)。图1总结了DescribePROT数据库中包含的蛋白质和蛋白质组的分类学分布,图1B中67%的蛋白质组来自真核生物,其中39%的动物蛋白质组占最大比例,而其余的33%由16%的病毒、10%的细菌和7%的古细菌蛋白质组组成。图1A显示DescribePROT数据库包含约2.3%细菌蛋白、1.0%古细菌蛋白、0.1%病毒蛋白和96.6%真核蛋白,后者是由于与非常小的病毒蛋白质组相比,真核蛋白质组相对较大。

表2. DescribePROT数据库中包含的蛋白质数据和预测的摘要和分类学分类

图1. DescribePROT数据库中蛋白质(A)和蛋白质组(B)的分类分布 

2. 预测

DescribePROT数据库中包含的预测方法满足三个关键特征:(i)DescribePROT数据库的范围很大,但是运行速度快,时间短;(ii)全面涵盖AA级描述符的完整覆盖范围;以及(iii)强大的预测性能。因此,当前版本的DescribePROT(v1.1)数据库包含了十个预测变量(按字母顺序)生成的结果,包括ASAquick的溶剂可及性,DFLpred的无序连接子, DisoRDPbind的蛋白质、RNA和DNA结合氨基酸,DRNApred的结构衍生的DNA和RNA结合氨基酸,MMseqs2的多个序列比对谱,短时间无序蛋白结合区域MoRFchibi,PSIPRED的二级结构,SCRRIBER的结构衍生蛋白结合氨基酸,SignalP的信号肽和VSL2B的内在无序AA,表3总结了这些方法,显示了使用DescribePROT数据库包含的蛋白质对运行时进行的经验性测量,结果表明这些预测器的确非常快,仅需0.07 s(对于VSL2B)至11 s(对于DRNApred的预测)即可。对单个蛋白质序列进行预测时,每个预测因子产生不同的描述子,它们共同涵盖四个结构描述符(溶剂可及性、二级结构、内在干扰和无序连接子)、三个功能描述符(蛋白质结合、RNA结合和DNA结合AA)、两个序列描述符(序列保守和信号肽),接下来,我们简要介绍每种工具的主要功能。

表3.用于导出DescribePROT数据库的十个预测变量的概述

运行时间使用Intel i7 CPU上的五个批次(每个批次包含100种蛋白质)进行测量,我们报告了五次运行的平均值和标准差。

PSIPRED可以说是最流行的二级结构谓词,会生成二级结构的精确三态预测,包括对螺旋(H)、链(E)和线圈(C)构象的数字倾向以及与具有最高假定倾向的二级结构相对应的预测标记,被评为多项比较研究中最准确的预测因素之一。我们运行的PSIPRED单序列版本可以扩展到DescribePROT的大小。

ASAquick是AA级可及表面积(ASA)的非常快速的预测指标,快速运行的时间源于ASAquick不利用耗时的多序列比对的事实,但是,它的预测性能与其它由于使用比对而慢得多的方法相比具有明显竞争力。我们通过从中得到的AA特有因子对推定的ASA值进行归一化,从而将该工具产生的输出转换为相对溶剂可及性(RSA)。我们还根据所述的方法,使用RSA值对掩埋残基进行注释,即假定RSA <0.16的AA被掩埋了。

SignalP是最常用的信号肽预测因子。对于给定的蛋白质链中的前70个AA,SignalP可生成信号肽和相应二进制标记。我们使用SignalP的最新版本5.0,该版本具有非常准确的预测功能,可在所有生物分类王国中工作,并区分多种类型的原核信号肽。我们将SignalP的生物群参数设置为与查询序列的种类兼容。

MMseqs2是一种非常快速的同源性搜索工具,可以从搜索结果中产生多个序列比对和特定位置的评分矩阵。我们利用此工具使用2019年08版的UniProt发布的参考蛋白质组作为背景序列集来生成PSSM,我们使用基于相对熵的方法从PSSM计算序列保守评分,其中背景氨基酸频率来自BLOSUM-62。此外,我们将保守度得分分为十分位间隔,并提供属于最高十分位的高度保守AA的二进制注释。MMseqs2比流行的PSI-BLAST快两个数量级,同时保持相似或更好的灵敏度水平。

VSL2B是内在障碍的快速且流行的预测因子,会生成内在疾病的数字倾向,并为蛋白质序列中的每个AA生成一个二进制标记,结合了较短的运行时间和较高的预测性能。VSL2B被评为CASP6中最佳的疾病预测指标,随后在多项其他评估中被评为最好的方法之一。

DFLpred是目前唯一预测disordered接头区域的方法,为本质上无序的区域,可充当多域蛋白中各域之间以及域内结构化组成部分之间的接头或间隔子。DFLpred输出输入序列的每个AA的接头数字倾向和相应的二元标记。结果表明,该方法可在不到一秒钟的时间内对单个蛋白质产生准确的预测。

DescribePROT数据库中包含的功能描述符着重于与蛋白质、DNA和RNA相互作用的注释,相应的预测模型已经开发了十多年了。DescribePROT数据库中包含的四个功能预测变量的选择来自于两个观察结果。首先,这些预测因子的两大类为使用结合蛋白质/ DNA/RNA的内在无序AA进行训练的序列,以及使用结构化蛋白质-蛋白质、蛋白质-DNA和蛋白质-RNA复合体训练的序列的预测因子被证明可以提供互补的结果;其次,最近的多项研究表明,这些方法中的许多交叉预测了相互作用的AA的三种类型,例如,蛋白质结合氨基酸的预测因子也会错误地将DNA和RNA结合氨基酸预测为蛋白质结合,而DNA结合残基的预测因子也会将蛋白质和RNA结合残基预测为DNA结合。相应地,我们包括两类预测器确保将其设计为最大程度地减少交叉预测的数量。

DisoRDPbind是目前唯一可与DNA和RNA相互作用的内在无序AA的预测因子,该工具还可以预测无序的蛋白质结合氨基酸,为无序AA生成蛋白质、DNA和RNA结合的三种数字倾向、输入蛋白质链的每个AA产生了相应的三个二进制标记。DisoRDPbind在较短的运行时间内表现出色(三种蛋白质的相互作用在一秒钟内就可以预测出一种蛋白质),在无序的蛋白质结合AA的预测因子中排名最高,并且产生的交叉预测数量很少。

我们还涵盖了对无序的蛋白质结合性氨基酸的丰富亚类的预测,称为MoRF(分子识别特征)。MoRF是短的无序蛋白区域(长度在5至25 AA之间),在结合蛋白伴侣后会发生无序的有序转移。解决无序AA的功能性谓词的绝大部分都集中在这种类型的交互作用上,我们使用快速准确的预测因子MoRFchibi,该预测因子输出MoRF和二进制标签的数字倾向(MoRF与非MoRF)。目前,该方法被列为最准确的MoRF预测指标之一。

DRNApred可以准确预测基于结构化蛋白质-核酸复合物的DNA和蛋白质–RNA结合氨基酸。对于输入序列的每个AA,产生DNA结合的倾向、RNA结合的倾向以及两个相应的二元标记(RNA结合对非RNA结合和DNA结合对非DNA结合)。该方法是核酸相互作用AA的唯一预测因子,已被训练用于特异性降低交叉预测。

SCRIBER是基于结构化复合物标注的蛋白质结合氨基酸的准确预测指标,输出蛋白质结合的数字倾向以及输入蛋白质序列中每个AA的相应二进制标记。和与核酸相互作用的DRNApred相似,是专门设计用于成功最小化蛋白质结合残基的交叉预测的唯一方法。

结果表明,我们采用的方法可以在相应基准数据集上提供准确率预测,这些数据集通常广泛涵盖分类空间。但是,仅比较了其中两种方法DisoRDPbind和SignalP在不同物种或生命域中的比较性,以探究其预测的准确性。DisoRDP结合证明了人类、小鼠、果蝇和秀丽隐杆线虫蛋白质组中预测性能的稳定水平。同样,SignalP在古细菌,革兰氏阴性细菌,革兰氏阳性细菌和真核生物之间提供可比的预测质量。DescribePROT的可用性将有助于将来的研究,从而为其它方法提供综合的比较分析。

3. 数据库

该数据库网址为http://biomine.cs./servers/DESCRIBEPROT/。DescribePROT数据库的后端是通过MariaDB关系数据库实现的,我们使用php和JavaScript来交付用户界面,并使用python来访问数据库、解析数据并生成可下载的文件。接下来,我们解释存储在DescribePROT中的数据,如何访问这些数据,如何搜索数据库以及如何使用和理解界面中的图形。

4.数据

DescribePROT数据库中的数据包括蛋白质名称、UniProt条目名称、序列、用于链接到UniProt记录的登录号,以及作为原始数字倾向和倾向衍生标签提供的12个预测。DescribePROT数据库存储溶剂可及性的数字倾向、三态二级结构状态中的每一种、信号肽、固有无序、无序连接子、Morfs、无序蛋白质、DNA和RNA结合以及结构注释的蛋白质、DNA和RNA结合。我们还存储了埋藏的氨基酸、信号肽、固有无序的氨基酸、无序连接子、Morfs、无序的蛋白质、DNA和RNA结合的AAs以及结构注释的蛋白质、DNA和RNA结合的AAs的三态二级结构标记和二元标记。最后,我们包括每个AA的PSSM、数值守恒分数和10个状态(基于十进制)的守恒等级标签。

这些数据以多种方便和互补的方式提供给最终用户。我们以JSON格式为83个蛋白质组中的每个蛋白质组以及整个数据库提供源数据,此选项位于数据库主页上的“下载”链接下;我们还提供通过交互式图形界面和可下载的PNG文件访问每个单独蛋白质的数据、以及CSV格式的文件和带有原始预测和二进制结果的可解析的JSON格式的文件。我们将在“结果页面”部分解释如何访问此信息。

5. 搜索类型

用户可以通过三种方式搜索DescribePROT数据库,通过UniProt登录号、UniProt条目名称和AA序列。AA序列搜索生成DescribePROT数据库中包含的蛋白质集合,这些蛋白质根据它们与输入蛋白链的相似性进行排序。这些蛋白质可以通过BLAST产生的E值(默认情况下)、比对覆盖范围和同一性值来分类,该信息附有相应的登录号,链接到UniProt记录和分类ID,以便为选择最相关的蛋白质提供依据,说明PROT还提供使用UniProt登录号直接访问特定蛋白质的数据,例如,用户可以使用以下直接链接获取P04637(p53蛋白质)的结果:http://biomine.cs./servers/DESCRIBEPROT/Result.php?UniProt=P04637,允许与其他数据库直接交联。

6. 结果页面

给定蛋白质的推定结构、功能和序列描述子以交互式图形格式提供,该格式利用“功能查看器”软件(DOI:10.5281 / zenodo.345324)和结果的可解析结构格式页(图2),页面顶部包括登录号(链接到相应的UniProt记录)、蛋白质名称、分类ID和序列长度。图2中的红色标记1指向链接到帮助和教程视频的问题标记图标,可以分别单击由红色标记2和3指示的箭头图标来下载JSON和CSV格式的假定注释;通过单击红色标记4标识的箭头图标,可以将图2底部所示的图形视图下载为PNG格式的图像,结果分为三部分:(a)推定的结构描述符,包括来自VSL2B(内在疾病)、ASAquick(溶剂可及性)和PSIPRED(二级结构)的预测;(b)推定的功能描述符,包括来自DisoRDPbind(无序的蛋白质、DNA和RNA结合的结合)、MoRFchibi(MoRF区域)、DRNApred(结构衍生的DNA和RNA结合)和SCRIBER(结构);(c)带有MMseqs2(PSSM和序列保守)的结果以及DFLpred(无序接头)和SignalP(信号肽)的预测的其他描述符。预测是使用图形报告显示的,该报告总结了数字倾向和注释。图2顶部的红色椭圆形标记标识复选框,该复选框打开用于特定预测的图形报告,图形报告可以缩放(放大和缩小),并提供功能以突出显示预测标签的区域,并在鼠标上方显示这些区域的边界以及潜在的倾向;后一种功能的示例使用图2中部的红色椭圆形标记显示。     

图2.由DescribePROT数据库为人类p53蛋白(UniProt ID:P04637)生成的示例结果页面

我们使用图2所示的人类p53蛋白的示例分析来说明如何解释结果页中的数据。p53蛋白参与了几个关键的细胞过程,例如凋亡和DNA修复。研究表明,p53是一种内在干扰的蛋白质,通过与大量蛋白质和DNA伴侣相互作用而发挥其功能。根据图2中浅绿色显示的VSL2B的结果,DescribePROT数据库表明p53序列的56%有序序列,在N端(位置1-101)和C端有两个长的无序区域(位置277–393),这与位于N端(1-92位置)和C端(293-393 AAs位置)的实验注释的无序区域非常吻合。而且,DescribePROT数据库显示出20%的AA结合蛋白部分(图2中蓝色突出显示)。该预测使用联合运算将由DisoRDPbind、MoRFchibi和SCRIBER等相关方法产生的结果组合在一起。详细的分析表明,在这种情况下,相互作用是由DisoRDPbind(区域1–32、41–70和283–287)和MoRFchibi(区域378–387)预测的,他们的预测与实验数据一致,例如,显示p53通过反转录domain(区域1-61)与几种蛋白伴侣(例如p300和CBP)相互作用,并与374–388区域中的另一组蛋白(包括CBP)相互作用。此外,研究表明p53的中央结构化主体是高度保守的,而在进化过程中侧翼无序区域已经多样化。相应地,图2中的灰色结果表明,高度保守的残基(较暗的灰色)主要位于结构域中。本示例说明了可以从DescribePROT数据库报告的结果中收集的信息的丰富性。

7. 假定描述符的全局分析

图3可视化了由9种预测工具产生的14种AA级推定倾向中的每对之间的Spearman相关系数(SCC)。我们将SignalP排除在分析之外,因为它的预测仅涉及蛋白质链N端的70个AA,并且大多数倾向之间没有相关性(SCC<0.2),这表明它们表征了AA的不同描述词。少数相关的描述符包括PSIPRED预测的二级结构,其中螺旋构象的倾向与线和线圈的倾向负相关(SCC<–0.6),而线和线圈的倾向弱相关(SCC = 0.2)。DRNApred产生的DNA结合和RNA结合倾向呈负相关(SCC = 0.54),这源于DRNApred旨在最小化DNA和RNA结合AA之间的交叉预测。DisoRDPbind数据库对蛋白质结合和RNA结合的预测也有轻微的负相关(SCC =–0.24),类似的观察也是如此。最后,SCRIBER和MoRFchibi(SCC = 0.25)的适度相关预测可以通过以下两种事实进行解释,两种方法都可以预测蛋白质结合AA。SCRIBER预测形成结构化复合物的蛋白质结合残基,而MoRFchibi专注于MoRF(结合后折叠的较短的杂散蛋白结合区域)。

图3.由蛋白质结构和功能的14个AA级预测产生的每对数字倾向之间的Spearman相关系数(SCC)

颜色编码的SCC通过DescribePROT数据库中包含的AA计算得出。结构预测包括ASAquick的RSA、DFLpred的无序接头、PSIPRED的螺旋、链和线圈构象以及VSL2B的内在无序;功能预测包括DisorRDPbind的disordered RNA结合、DNA结合和蛋白质结合、MoRFchibi的MoRF、DRNApred的结构注释的DNA结合和RNA结合以及SCRIBER的结构注释的蛋白质结合。我们还包括根据MMSeqs2生成的配置文件计算的序列保守性。

图4显示了由十种方法预测的AA级标签汇总的蛋白质水平含量值的分布。含量定义为蛋白质序列中具有给定标记的AA的比例,例如掩埋AA的分数计算为掩埋AA的数量除以序列长度。我们涵盖了高度保守的残基(在整个数据库范围内得分最高的AA中)、螺旋(H)、链(E)和线圈(C)构象的含量、掩埋AA的含量(RSA<0.16)以及无序AA、无序接头以及蛋白质结合、RNA结合和DNA结合AA的含量。从这些数据中可以收集到一些有趣的发现,例如,高度保守的AA的含量在0.03至0.24之间,这表明序列级保守可以相差一个数量级;螺旋AA的中值含量约为0.4,略低于卷材的中值含量0.45,并且远高于绞线的中值含量〜0.15;掩埋AA的中位数含量为0.3,但是掩埋残基的比例可以在几乎零到一半的序列之间变化很大;内在障碍的中位数含量约为0.1,而约35%的蛋白质的大部分AA处于障碍状态,有些蛋白质完全失调。这些观察结果与过去关于内在疾病丰富性的研究一致。

图4. DescribePROT数据库中包含的结构,功能和序列衍生描述符的推定蛋白质水平含量的分布

方框图表示以下12个间隔,其中连续的矩形分别对应于5–12.5、12.5–20、20–27.5、27.5–35、35–42.5、42.5–50、50–57.5、57.5–65、65–72.5,72.5–80、80–87.5、87.5–95个百分点范围;黑色水平线代表中位数。

讨论

DescribePROT数据库可以快速地访问蛋白质结构和功能的各种AA级描述符,以收集涵盖多种生物的完整蛋白质组,包括内在疾病、二级结构、溶剂可及性、RNA、DNA和蛋白质结合、MoRF、无序接头和信号肽的预测;还提供对预先计算的PSSM和序列保留值的访问。该资源是对AA级预测的当前数据库D2P2和MobiDB的补充,这些数据库主要关注内在性疾病,DescriPROT包含的推定注释可用于广泛的研究,从蛋白质功能的基础研究到通过针对疾病和治疗方法的应用项目,再到设计和测试预测新方法的项目蛋白质序列的其他特征,例如:最近才使用VSL2B表征EZH2蛋白的功能和结构;使用DisoRDPbind分析SARS-CoV-2蛋白质组;并使用PSIPRED和ASAquick进行设计;caspase和基质金属蛋白酶切割位点的深度学习预测因子。

DescribePROT数据库提供了多种访问数据的方式,具有交互式图形界面,提供了同时浏览多个结构和功能描述符的功能,还提供了蛋白质、蛋白质组和整个数据库规模的源数据的可下载功能。此外,DescriPROT数据库还提供帮助和教程视频,这些视频说明了如何搜索数据库以及如何使用和理解界面图形。

我们未来的工作将主要集中在扩大数据库的覆盖范围上,最终目标是覆盖UniProt的全部内容,我们的高度优先短期目标是包括一些相关参考数据库(例如PDB和DisProt)中可用的实验注释。我们打算添加其他和互补的功能和结构描述符,例如推定的域边界、翻译后修饰以及与小分子配体的相互作用。我们计划通过API以编程方式提供对基础数据的访问,以补充当前可用的众多可下载文件格式。总体而言,我们的目标是每季度更新一次DescribePROT数据库的资源。我们也期待听到并考虑用户对未来发展的建议。

原文链接:https://pubmed.ncbi.nlm./33119734/
 
   



    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多