分享

建议收藏!25个常用蛋白质组学数据库都在这了! | 蛋白专题

 外科黄文斌 2022-01-20

人类基因组以及多种模式生物、重要生物基因组全序列的完成,标志着生命科学研究进入“后基因组时代 (Postgenome era)”,即功能基因组学(Functional Genomics),如蛋白质组学、代谢组学、营养组学。

功能基因组学从基因整体水平上对生命的活动规律进行阐述,并力求从细胞水平上解决基因组问题,通过建立对生命现象的整体认识,阐明生物体内蛋白质表达模式与功能模式、解决细胞水平上的基因组问题;蛋白质组逐渐成了功能基因组学的最重要部分之一,随着蛋白质组学的深入研究产生了非常庞大的数据,我们对蛋白质组学和蛋白相关的数据库进行了简单的整理,方便针对特定数据进行进一步的分析和挖掘。

1. UniProt

网址:http://www./

简介:UniProt是全球有关蛋白质方面信息最全面、使用频率高、冗余度最低的蛋白数据库,可免费获取高质量的蛋白序列和功能信息。数据库由Swiss-Prot(瑞士生物信息研究所)、TrEMBL(欧洲生物信息研究所)和PIR-PSD(蛋白信息资源)三大数据库的数据整合而成。其数据主要来自于基因组测序项目完成后获得的蛋白质序列,并包含了大量来自文献和人工注释的蛋白质的生物功能的信息。

数据库功能模块主要包含:蛋白序列、结构域、亚细胞定位、翻译后修饰,表达情况,蛋白互作等,可以与其他数据库如三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库数据共享,可以查找蛋白序列、功能信息、结构域、修饰位点。

图片



2. InterPro

网址:http://www./interpro/

简介:InterPro是一个蛋白质综合数据库,整合了蛋白质结构域、蛋白质家族、功能位点,结合位点等信息。Interpro在整合多个数据库的同时,去掉了冗余,提供了一个统一的接口,用来对序列进行功能注释,每两个月会更新一次。

图片

3. CDD(Conserved Domain Database)

网址:http://www.ncbi.nlm./Structure/cdd/cdd.shtml

简介:CDD是蛋白质保守结构域数据库,收集了大量保守结构域序列信息和蛋白质序列信息。一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能,检索时通过CD-Search服务,可获得蛋白质序列中所含的保守结构域信息,从而分析、预测该蛋白质的功能。

图片

4. IUPHAR-DB

网址:https://www./

简介:IUPHAR-DB为G蛋白偶联受体、离子通道数据库,提供这些蛋白的基因、功能、结构、配体、表达图谱、信号转导机制、多样性等数据。可以用于药物靶点查找,可以按照免疫过程信号通路查询或者在不同细胞特异表达查询或者根据蛋白是激酶、离子通道分类进行查询。

图片

5. SWISS-2DPAGE

网址:http://www./ch2d/

简介:收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息,包括人类、小鼠、大肠杆菌、酿酒酵母、盘基网柄菌等。

图片

6. IPSA

网址:

http://www./PeptideAnnotator.html

简介:IPSA是一个在线的质谱可视化平台,可以通过导入数据及填写相关方法信息,生成可交互的图形。

图片

7. utils

网址:https://

简介:utils是一个整理了质谱常用软件、网站及数据库的网站。包含质谱常用软件,数据可视化,格式转换,峰提取/反卷积,PTM,蛋白质鉴定,蛋白质定量,蛋白结构,质谱成像,同位素分析计算等相关资源链接,目前也仍在保持更新。

图片

8. BRENDA(enzyme database)

网址:http://www.

简介:BRENDA是一个酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。该数据库主要基于文献,主要部分包含来自约13000种生物的约9万种酶的500万条数据,是从约15.7万种主要参考文献中手动提取的。可用于酶-配体相互作用和酶数据可视化。

图片

9. GO(gene ontology)

网址:http:///

简介:GO(Gene Ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO数据库总共有三大类,分别是生物学过程(Biological Process, BP)、细胞定位(Cellular Component, CC)和分子功能(Molecular Function, MF),各自描述了基因产物可能行使的分子功能,所处的细胞环境,以及参与的生物学过程。GO数据库中一个基本的概念是节点(term),每个节点都有一个名称,比如“Cell”、“Fibroblast Growth Factor Receptor Binding”或者“Signal Transduction”,同时有一个唯一的编号,如“GO:nnnnnnn”。通过GO数据库注释信息,可对蛋白质进行功能分类注释。

图片

10. KEGG

(Kyoto encyclopedia of Genes and Genomes)

网址:https://www./kegg/

简介:KEGG是一个集成数据库,大致由系统信息、基因组信息、化学信息和健康信息四大类组成,可细分为15个主要的数据库。整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(PATHWAY)、药物(DRUG)、疾病(DISEASE)、基因序列(GENES)及基因组(GENOME)等。可以系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能,有助于把基因及表达信息作为一个整体的网络进行研究。PATHWAY是其最核心的数据库之一,该数据库是一个手工画的代谢通路的集合,包含分子间相互作用和反应网络,可以用于对蛋白参与的代谢通路进行注释和分析。

图片

11. Reactome

网址:http://www.

简介:Reactome数据库是一个整合了人体生命活动途径和过程的数据库,包含细胞代谢和信号通路,同时对每条通路会提供深入的注解和文献。数据以人类相关数据为主,同时也含有其他二十多种物种的数据。数据库中包含生化过程网络图,其中参与的蛋白分子会有详细注释,为人们提供了一个全新的从整体水平上对生物学途径进行研究的工具。该数据库由专家撰写,经同行评阅,Pathway注释由生物学专家与Reactome编辑人员合作编写,并交叉引用许多生物信息学数据库,包括NCBI Gene数据库,Ensembl和 UniProt数据库,UCSC基因组浏览器,KEGG化合物和ChEBI小分子数据库,PubMed和 Gene Ontology。

图片

12. STRING

网址:https://

简介:string是一个基因、蛋白质相互作用关系检索工具。它可以用于获取独特的,覆盖范围广的实验以及预测的蛋白相互作用关系。用户可以通过蛋白名称或者序列进行查询,结果以可点击互动的网络图展示。数据库的信息主要来自于提取文献实验数据中的蛋白互作关系以及计算机预测的相互作用关系。提供的相互作用关系主要基于confidence score(可靠指数),以及其他附属信息,比如提供蛋白质域和3D结构。string也是目前蛋白互作数据库中覆盖物种最多,相互作用信息大的一个。

图片

13. CORUM

(Collection of experimentally verified mammalian protein complexes)

网址:https://mips./corum/

简介:CORUM数据库提供了哺乳动物手工注释的蛋白质复合物资源。注释包括蛋白质复合物功能、定位、亚基组成、文献参考等,大部分蛋白质复合体为人,大鼠,小鼠。

图片

14. ConsensusPathDB

网址:http://cpdb.molgen.

简介:人类功能作用网络数据库,基于32个公共数据库,提供蛋白质互作、生化反应和基因调控等的作用网数据。

图片

15. HPRD(Human Protein Reference Database)

网址:http://www./

简介:HPRD也是一个蛋白互作相关数据库,主要包含人类蛋白文献的数据库。除了蛋白互作,数据库还囊括了蛋白注释、亚细胞定位、结构域、转录后修饰和信号通路合集等多种功能。用户可以用蛋白名称、序列号等信息查询。并且可以以蛋白质/多肽序列进行Blast比对查询,该数据库可靠性高,但没有其他一些综合数据库信息全

图片

16. STITCH

网址:http://stitch./

简介:STITCH数据库是一个蛋白质和化合物之间作用的数据库,用于检索已知的以及被预测的化合物和蛋白质之间的互作关系。该数据库中化合物和蛋白之间的作用关系主要来自实验验证,其他数据库以及文献。结果网络可进行交互式检索或应用于大规模分析。

图片

17. 3DID(3D interacting domains)

网址:http://3did.

简介:搜索3D结构已知的蛋白质的互作信息,可通过结构域名称、基序名称、蛋白质序列、GO编码、PDB ID、Pfam编码进行检索。

图片

18. PiSite(Database of Protein interaction sites)

网址:http://pisite.

简介:PiSite以PDB为基础,用于在蛋白序列中搜寻互作位点。

图片

19. PhosphoSitePlus

网址:https://www./

简介:PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库,总结归纳了海量通过科学研究发现的蛋白修饰位点,包括磷酸化、甲基化、乙酰化、泛素化等,并包括一些CST公司发现但未发表的蛋白修饰位点。该数据库是动态的、开放的、高度互动并持续更新的,有助于研究PTMs在细胞/组织中的作用,以及发现新的疾病标志物和药物靶点,同时可以与NCBI/SwissProt/PDB交叉应用。

在 PhosphoSitePlus数据库中可获取的信息包括:

1)蛋白质存在哪些翻译后修饰,相应的修饰位点及抗体产品

2)与特定蛋白修饰相关的疾病、细胞系、组织类型

3)蛋白的亚细胞定位、修饰蛋白序列、基因序列、结构域等

4)在蛋白的空间水平上显示蛋白修饰位点的位置,不同物种中蛋白修饰的保守性

5)激酶底物和相关序列

图片

20. UNIMOD

网址:http://www./modifications_list.php

简介:UNIMOD是蛋白质翻译修饰常用的数据库,可较全面的查询翻译后修饰以及翻译后修饰的精确分子量。

图片

21. dbPTM

网址:https://awi./dbPTM/index.php 

简介:dbPTM整合了已经发布的数据库以及经过实验验证的蛋白质修饰,可以用于研究蛋白质翻译后修饰底物位点特异性以及相关功能。包含PTM,二级结构,结构域,蛋白互作,三级结构等的可视化展示。

图片

22. CPLM/PLMD

网址:http://plmd./

简介:CPLM升级后为PLMD,是用于研究蛋白翻译后修饰的数据库,可分别通过PTM类型和疾病类型两种方式查询。通过查询可以获取蛋白质信息,PTM-疾病关联,疾病交叉注释,PTM位点,蛋白-蛋白互作等信息,也可以用于富集分析及通路分析。

图片

23. Delta Mass

网址:https://www./delta-mass

简介:Delta Mass可以用于查询翻译后修饰的平均分子量,可进行可视化。

图片

24. PDB(Protein Data Bank)

网址:http://www./pdb

简介:PDB是蛋白结构数据库,由结构生物信息学研究合作组织(Research Collaboratory for Structural Bioinformatics,简称RCSB)维护。和核酸序列数据库一样,可以通过网络直接向PDB数据库提交数据。PDB是目前最主要的收集生物大分子蛋白质、核酸和糖2.5维(以二维的形式表示三维的数据)结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。其内容包括生物大分子的原子坐标、参考文献、1级和2级结构信息,也包括了晶体结构因数以及NMR实验数据等。数据可通过相关三维立体结构显示软件进行查看、编辑,进一步用于研究,也可与CSD剑桥晶体结构数据库协同使用。

图片

25. SARST

(Structural similarity search Aided by Ramachandran Sequential Transformation)

网址:http://sarst.life./

简介:可以进行蛋白质结构相互对比的数据库。

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多