一、基因组数据库
基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。常用的基因组数据库如下:
1)综合基因组数据库
NCBI的Assembly数据库,网址:https://www.ncbi.nlm./assembly/?term=
GigaDB数据库,网址:http:///#myCarousel
2)植物基因组数据库
Ensemble
Plant,网址:http:///#myCarousel
JGI的Phyzome,网址:https://phytozome.jgi./pz/portal.html
3)动物基因组数据库
Ensembl,网址:http://asia./index.html
EnsemblMetazoa,网址:http://metazoa./index.html
EnsemblProtists,网址:http://protists./index.html
4)微生物基因组数据库
细菌基因组数据库:
EnsemblBacteria,网址:http://bacteria./index.html
IGM/M,网址:https://img.jgi./
真菌基因组数据库
EnsemblFungi,网址:http://fungi./index.html
JGI的MycoCosm,网址:https://genome.jgi./programs/fungi/index.jsf
部分数据库,注意每种数据库的使用方法。
二、转录组比对数据库
NT、NR、GO、KOG、Pfam、KEGG以及 SwissProt 都属于功能性数据库(数据库详细信息请参考官方网站)。我们使用 Blastn对Unigene进行 NT注释,使用Blastx或Diamond对Unigene进行NR、KOG、KEGG 以及 SwissProt注释,使用 Blast2GO 以及NR注释结果进行GO注释。
NT:
描述: NT数据库是美国国家生物技术信息中心NCBI官方的核酸序列数据库,NT库属于非冗余核酸序列数据库,数据来源于GenBank、EMBL 以及 DDBJ,是NCBI默认的核酸blast比对数据库。
官网:
ftp://ftp.ncbi.nlm./blast/db
NR:
描述: NR库属于非冗余蛋白序列数据库,是NCBI官方的蛋白序列数据库,数据来源于GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默认的蛋白比对数据库。
官网:
ftp://ftp.ncbi.nlm./blast/db
GO:
描述: GO( Gene
Ontology ): 基因本体。生物技术的发展迅速,数据越来越多,不同数据库命名标准不统一,为了解决不同的生物学数据库可能会使用不同的术语的问题,从而基因本体联合会(Gene Onotology Consortium)开发GO来描述基因在分子、细胞和组织水平的功能体现。GO的基本描述单元是GO terms。GO主要包括三个分支: 生物过程(biological processes)、分子功能(molecular function)和细胞组成(cellular
components),用于描述基因产物的功能。GO中使用了is_a、part_of和regulates三种互作关系。
官网:
http://
KOG:
描述: COG
(clusters of orthologous groups)主要是原核生物和单细胞真核生物的直系同源物,KOG(clusters
of euKaryotic Orthologous Groups)数据库包含了7个完整基因组的真核生物的直系同源家族蛋白, 构成每个 KOG 的蛋白集是被假定为来自于一个祖先蛋白,根据系统发生进行分类,一般COG指原核生物,KOG指真核生物,KOG与COG提供了相似的基因同源物的分类信息。
官网:
http://www.ncbi.nlm./KOG
KEGG:
描述: KEGG
(Kyoto Encyclopedia of Genes and Genomes) 是处理基因组、生物通路、疾病、药物和化学物质之间联系的集成数据库。 KEGG用于生物信息研究等,包括基因组,代谢组学等其他组学的数据分析,涵盖了Drug
Development(药物开发)、 Cellular
Processes(细胞过程)、 Environmental
Information Processing(环境信息处理)、Genetic
Information Processing(遗传信息处理)、
Human Diseases(人类疾病), Metabolism(代谢)、 Organismal Systems(有机系统)等方面。
官网:
http://www./kegg
SwissProt:
描述:
UniProtKB整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成.Swiss-Prot 包含检查过的、手工注释的条目,是一个高质量非冗余的蛋白数据库,可信度较高。
官网:
http://ftp./pub/databases/swissprot
Pfam:
Pfam是由多序列比对和隐马尔科夫模型构建的蛋白家族数据库。每个条目都提供映射回UniProt的ID,也可以通过
检索对应到NCBI数据库。
官网:http://pfam.
三、常用生物数据库
EMBL(EMBL
nucleotide sequence database EMBL核苷酸序列数据库)
DDBJ(DNA Data Bank
of Japan 日本DNA数据库)
GenBank(GenBank 基因序列数据库)
MIM(Online
Mendelian Inheritance in Man (OMIM) 人类孟德尔遗传网上数据库)
GDB--The Genome Database
Lawrence Berkeley Human Genome Informatics
Oak Ridge Informatics Group
MGD(Mouse genome
database 小鼠基因组数据库)
ZFIN(Zebrafish
Information Network genome database 斑马鱼信息网基因组数据库)
FlyBase(Drosophila genome database 果蝇基因组数据库)
MaizeDB(Maize genome database 玉米基因组数据库)
MAIZE-2DPAGE(Maize genome 2D Electrophoresis database 玉米基因组双向电泳数据库)
Mendel(Mendel-GFDb
(Plant genes families database) 孟德尔植物基因家族数据库)
Delection (酵母功能基因组)
SGD(Saccharomyces
Genome Database 酵母基因组数据库)
DictyDb(Dictyostelium discoideum genome database Dictyosteliumdiscoideum基因组数据库)
大肠杆菌
ECO2DBASE(Escherichia coli gene-protein database (2D gelspots) 大肠杆菌基因-蛋白数据库)
EcoCyc(Encyclopedia
of E.coli genes and metabolism 大肠杆菌基因和代谢百科全书)
EcoGene(Escherichia coli K12 genome database Escherichia coliK12基因组数据库)
枯草杆菌
NRSUB(Non-redundant
B.subtilis database 无冗余枯草杆菌数据库)
SubtiList(Bacillus subtilis 168 genome database 枯草杆菌168基因组数据库)
TIGR(The bacterial
database(s) of 'The Institute of GenomeResearch' 基因组研究所的细菌数据库)
分支结核杆菌
TubercuList(Mycobacterium tuberculosis H37Rv genomedatabase分支结核杆菌H37Rv基因组数据库)
HIV(HIV sequence
database HIV序列数据库)
PRESAGE(Collaborative resource for structural genomics 结构基因组学联合资源)
IMGT(ImMunoGeneTics
db 免疫基因标记数据库)
KEGG (基因相互作用)
DOMO(Protein Domain
database 蛋白质结构域数据库)
HSSP(Homology-derived
secondary structure of proteins database 蛋白质同源二级结构数据库)
PDB(Protein Data
Bank 蛋白质结构数据库)
Pfam(Pfam protein
domain database 蛋白质结构域数据库)
ProDom(ProDom Protein
domain database 蛋白质结构域数据库)
PROSITE(PROSITE: protein domains and families database 蛋白质结构域和家族数据库)
PIR(Protein
sequence database of the Protein Information Resource 蛋白质信息资源数据库)
PRINTS(Protein Motif
fingerprint database 蛋白质模式数据库)
ECO2DBASE(Escherichia coli gene-protein database (2D gel spots) 大肠杆菌基因-蛋白数据库)
WormPep(Caenorhabditis elegans genome sequencing project
proteindatabase线虫基因组测序计划蛋白数据库)
YPD(Yeast protein
database 酵母蛋白质数据库)
CySPID (细胞骨架蛋白相互作用)
ENZYME(Enzymes
nomenclature database 酶命名数据库)
GCRDb(G
protein-coupled receptor database G蛋白耦联受体数据库)
REBASE(Restriction
enzymes and methylases database 限制性酶和甲基化酶数据库)
TRANSFAC(Transcription factor database 转录因子数据库) BLOCKS(BLOCKS 蛋白质模块数据库) http://www.blocks./
DOMO(Protein Domain
database 蛋白质结构域数据库)
ENZYME(Enzymes
nomenclature database 酶命名数据库)
GCRDb(G
protein-coupled receptor database G蛋白耦联受体数据库)
GeneCards(GeneCards: human genes, protein and diseases 基因卡:人基因、蛋白和疾病)
PDB(Protein Data
Bank 蛋白质结构数据库)
HSSP(Homology-derived
secondary structure of proteins database 蛋白质同源二级结构数据库)
Pfam(Pfam protein
domain database 蛋白质结构域数据库)
PIR(Protein
sequence database of the Protein Information Resource 蛋白质信息资源数据库)
PRINTS(Protein Motif
fingerprint database 蛋白质模式数据库)
ProDom(ProDom Protein
domain database 蛋白质结构域数据库)
PROSITE(PROSITE: protein domains and families database 蛋白质结构域和家族数据库)
REBASE(Restriction
enzymes and methylases database 限制性酶和甲基化酶数据库)
WormPep(Caenorhabditis elegans genome sequencing project protein
database线虫基因组测序计划蛋白数据库)
YPD(Yeast protein
database 酵母蛋白质数据库)
四、疾病数据库
五、肿瘤数据库