分享

生物学功能基因集数据库之ConsensusPathDB

 健明 2022-01-25

是否厌烦了GO和KEGG呢,试试看ConsensusPathDB吧,它的官网是:http://cpdb.molgen./

有意思的是它对比了31个已有的 生物学功能基因集数据库,做了一个整理,算是集大成者?包括:

31个已有的 生物学功能基因集数据库

我简单看了看,就KEGG数据库我比较熟悉,作者自己说它这个数据集是这些其它数据库资源的集大成者,包括:

  • protein interactions
  • signaling reactions
  • metabolic reactions
  • gene regulations
  • genetic interactions
  • drug-target interactions
  • biochemical pathways

目前有五千多基因集,详情如下:

unique physical entities:200,499
unique interactions:859,848
gene regulations:18,912
protein interactions:616,304
genetic interactions:7,936
biochemical reactions:25,046
drug-target interactions:191,650
pathways:5,578

每次更新都有一篇文章发表,从2009到2016 :

Herwig, R. et al.. Analyzing and interpreting genome data at the network level with ConsensusPathDB. (2016) Nature Protocols 11, 1889-1907.Kamburov, A. et al. (2013) The ConsensusPathDB interaction database: 2013 update. Nucleic Acids Res.Kamburov, A. et al. (2011) ConsensusPathDB: toward a more complete picture of cell biology. Nucleic Acids Res.Kamburov, A. et al. (2009) ConsensusPathDB--a database for integrating human interaction networks. Nucleic Acids Res.Pentchev, K. et al. (2010) Evidence mining and novelty assessment of protein-protein interactions with the ConsensusPathDB plugin for Cytoscape. Bioinformatics

目前已经更新到 Release 35 (05.06.2021) ,暂时只支持 human  yeast  mouse 这3个物种。

支持下载全部的五千多基因集

作者整理好的基因集,里面的基因有多种id,包括:

  • Entrez
  • Ensembl
  • symbol (HGNC symbol)
  • HGNC ID
  • RefSeq
  • Unigene
  • Uniprot

我这里一般是选择symbol (HGNC symbol),如下所示:

Butanoate metabolism - Homo sapiens (human) path:hsa00650 KEGG ACADS,ABAT,AACS,GAD1,GAD2,ACSM1,EHHADH,ACSM3,HADHA,ACSM5,ACSM4,ACSM6,ACAT1,ACAT2,HMGCLL1,HMGCS1,HMGCS2,HMGCL,ACSM2A,ACSM2B,BDH2,BDH1,HADH,L2HGDH,ECHS1,OXCT1,OXCT2,ALDH5A1
Steroid hormone biosynthesis - Homo sapiens (human) path:hsa00140 KEGG HSD17B12,HSD17B1,CYP11B2,HSD11B1L,UGT2A3,UGT2A2,UGT2A1,CYP17A1,UGT1A8,UGT1A9,UGT1A4,UGT1A5,UGT1A6,UGT1A7,UGT1A1,AKR1C2,UGT1A3,CYP7B1,CYP11A1,CYP1B1,UGT1A10,AKR1C4,CYP3A7-CYP3A51P,HSD17B8,UGT2B15,UGT2B17,UGT2B10,UGT2B11,CYP21A2,SRD5A3,SRD5A2,SRD5A1,AKR1C3,HSD11B2,HSD17B6,HSD17B7,UGT2B7,UGT2B4,AKR1C1,HSD3B2,DHRS11,LRTOMT,COMT,STS,SULT1E1,CYP3A7,CYP3A4,CYP3A5,HSD17B2,CYP1A1,CYP1A2,HSD17B3,CYP19A1,AKR1D1,CYP2E1,HSD3B1,SULT2B1,UGT2B28,CYP11B1,HSD11B1,CYP7A1
Cell cycle - Homo sapiens (human) path:hsa04110 KEGG BUB1B,PLK1,PKMYT1,GADD45A,GADD45B,ANAPC11,ANAPC10,ANAPC13,GADD45G,ESPL1,WEE2,WEE1,CUL1,CDKN2B,CDKN2C,CDKN2A,CDKN2D,MDM2,PRKDC,CCND1,CCND3,CCND2,GSK3B,SFN,DBF4,RBX1,CCNH,FZR1,CDKN1C,CDKN1B,CDKN1A,CDC16,CCNE2,CCNE1,TTK,STAG2,CHEK2,CHEK1,SMC1A,SMC1B,BUB1,BUB3,CDC25C,CDC25B,CDC25A,STAG1,ANAPC1,ZBTB17,ANAPC2,ANAPC5,ANAPC4,ANAPC7,TP53,CDC27,CDC26,CDC23,CDC14B,CDC14A,CDC20,TFDP2,TFDP1,HDAC1,HDAC2,SMAD4,ATM,SMAD2,SMAD3,MAD2L1,ATR,ABL1,CDC6,CDC7,SKP2,SKP1,SMC3,PTTG1,PTTG2,RBL1,RBL2,E2F5,EP300,MYC,CDK1,CDK2,CDK4,CDK6,CDK7,CDC45,MAD2L2,TGFB1,TGFB2,TGFB3,YWHAZ,CCNA2,CCNA1,MAD1L1,YWHAQ,RB1,YWHAH,YWHAB,YWHAG,YWHAE,PCNA,RAD21,ORC6,ORC4,ORC5,ORC2,ORC3,ORC1,MCM7,MCM6,MCM5,MCM4,MCM3,MCM2,CCNB3,CCNB2,CCNB1,E2F4,E2F3,E2F2,E2F1,CREBBP

可以看到,我随意 挑选了两个基因集,居然就是简单的从KEGG数据库里面复制粘贴的?那么这个ConsensusPathDB的特殊价值,就是帮助我们筛选基因集吗?

如果你不会R代码也想使用这个数据库

首先它自己的主页即可,支持用户上传自己的基因列表,官网:http://cpdb.molgen./

其次,它提供一个Cytoscape的插件, With the ConsensusPathDB plugin for Cytoscape you can mine evidence (publications, detection methods, pathways, etc.) for interactions loaded in Cytoscape and highlight interactions that have not been detected previously. Please read our paper on the plugin to learn how to use it.

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多