生物信息学数据库

九色枫林 2017-12-14

展开全文

国际上已建立起许多公共分子信息数据库，包括基因图谱数据库、核酸序列数据库、蛋白质序列数据库、大分子结构数据库等。这些数据库由专门的机构建立和维护，他们负责收集、组织、管理和发布生物分子数据，并提供数据检索和分析工具，向生物学研究人员提供大量有用的信息，最大限度地满足他们的研究需要，为生物信息学研究提供服务。分子生物学研究领域虽各有重点，但是研究对象之间存在着密切的联系，因而实验数据之间就必然存在着关联，一个方面的相关数据可能会影响或促进另一个方面的研究工作，现有的各类数据库已经成为分子生物学各方面交叉研究的桥梁。生物分子数据库最突出的特点就是各数据库中的数据迅速增长，例如已知的核酸序列数据量每年翻一番。而增长更快的则是数据库的使用频率，每年增长幅度为200%—500%。

国际著名的生物信息中心
NCBI National Center for Biotechnology Information (US)
EBI European Bioinformatics Institute (EU)
HGMP Human Genome Mapping Project Resource Centre (UK )
ExPASy Expert of Protein Analysis System (Switzerland )
CMBI Centre of Molecular and Biomolecule (The Netherlands)
ANGIS National Genome Information Service (Australia)
NIG National Institute of Genetics (Japan)
BIC National Bioinformatics Centre (Singapore)

国内部分生物信息学和生物医学信息服务器
北京大学生物信息中心 http://www.cbi.pku.edu.cn
中国生物信息http://www./
北京大学物理化学研究所 http://www.ipc.pku.edu.cn
北京医科大学生物医学信息 http://cmbi.
中国科学院微生物研究所 http://www.
天津大学生物信息中心 http://tubic.
中科院计算所智能信息处理重点实验室生物信息学研究组 http://www./
中国科学院基因组信息学中心 http://www./

1、核酸数据库
    GenBank, 美国国家生物技术信息中心(NIH)建立的DNA数据库。为保证数据尽可能的丰富，GenBank与EMBL及DDBJ都建立了相互交换数据的合作关系。GenBank由按物种及数据获取手段分割成的17个子数据库构成。使用Entrez数据库管理系统，通过该系统可以检索基本的DNA基因图谱、蛋白质序列及结构数据库。通过其中与MEDLINE的连接，还能够得到关于该序列的更进一步的信息，比如有关的文献摘要甚至全文。
    EMBL，欧洲生物信息研究院（European Bioinformatics Institute, EBI）创建的一个核苷酸序列数据库，EMBL与后面将要提到的DDBJ及GenBank分别在全世界范围内收集序列信息，同时，他们每天都将新发现或更新过的数据相互交换。
    DDBJ（DNA Data Bank of Japan）,日本DNA数据库，于1986年与EMBL及GenBank合作建立起来，由日本国立遗传学研究院负责数据库的建设，维护及数据的传播。
    三个组织相互合作，各数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库，其数据来源于众多的研究机构和核酸测序小组，来源于科学文献。数据库中的每条记录代表一个单独、连续、附有注释的DNA或RNA片段。
    基因组数据库（GDB）(*MGB(mouse) *SGB(Yeast)):基因组数据库（The Genome Database），是由一位中国人柴玉波1990年建立于Hopkins大学，收集了大量基因图谱数据，以便于分析DNA结构并确定其在染色体上的位置，以及进行功能分析。该数据库可以提供以下分析：(1)人基因组位置分析(Regions of the human genome)：包括基因、克隆、EST以及断裂位点等。(2)人基因组图谱(Maps of the human genome)：(3)人基因组变异(Variations within the human genome )：包括突变及多态性等。
    人类基因组数据库Ensembl:人类基因组计划得到了人类第一张序列的草图，然而这样的序列并非是最终的序列，因为序列还存在错误的地方，还需要做进一步的工作。Ensembl试图跟踪所有人类基因组的序列片段，并将序列片段组装成单个长序列，进而分析这些经过组装的DNA序列，搜索其中的基因，发现生物学家或医学工作者感兴趣的特征。Ensembl包括所有公开的人类基因组DNA序列，通过注释形成的关于序列的特征。基因就是一种特征，基因或者是通过实验发现的，或者是通过Ensembl的程序预测的。Ensembl所用的基因预测程序为GenScan。其他的特征包括单核苷酸多态性（SNP），重复序列，与其它序列高度相似（或同源）的序列。

表达序列标记数据库dbEST: http://www.ncbi.nlm./dbEST/
序列标记位点数据库dbSTS: http://www.ncbi.nlm./dbSTS/
面向基因聚类数据库UniGene: http://www.ncbi.nlm./UniGene/

2、蛋白质数据库
    PIR(Protein Information Resource):是由美国生物医学基金会NBRF（National Biomedical Research Foundation）于1984年建立的，其目的是帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组及计算生物学。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统，用户可以迅速查找、比较蛋白质序列，得到与蛋白质相关的众多信息。PIR的64.00版本包含178050个蛋白质的登录项。
    SWISS-PROT: 是由Geneva大学和欧洲生物信息学研究所（EBI）于1986年联合建立的，它是目前国际上比较权威的蛋白质序列数据库。SWISS-PROT 中的蛋白质序列是经过注释的。SWISS-PROT中的数据来源于不同源地：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR选择出合适的数据；（3）从科学文献中提取；（4）研究人员直接提交的蛋白质序列数据。SWISS-PROT 38.0 版本有80'000序列登录项，包含摘自64'965篇参考文献的29'085'265个氨基酸。2001年十月发布的40.0，拥有101'602全注释序列，37'315'215个氨基酸，91'880个参考文献。
    TrEMBL(Computer-annotated supplement to SWISS-PROT)
    NRL-3D
    NRDB
    PROSITE
    PRINTS

3、生物大分子数据库
PDB（Protein Data Bank）:目前，国际上著名的生物大分子结构数据库是美国Brookhaven实验室的大分子结构数据库PDB（http://pdb.pdb./）。PDB中含有通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，其中主要是蛋白质的三维结构，还包括核酸、糖类和其它复合物的三维结构。截止2000年三月底，PDB数据库已含有12000个结构。对于每一个结构，包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。
MMDB(Molecular Modeling Database):MMDB是美国生物技术信息中心(NCBI)所开发的数据库集成系统Entrez的一个部分，数据库的内容包括生物大分子来自于实验的结构数据。该数据库实际上是PDB的一个编辑版本，MMDB运用标准的“残基词典”，其中记录了以氨基酸、核酸复合体形式存在、具有末端多样性的分子中所有原子和化学键的信息。与PDB相比，对于数据库中的每一个结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，此外还包括生物大分子之间关系的信息。此外，系统还提供生物大分子结构显示、结构分析和结构比较工具。MMDB采用ASN.1的记录格式，而非PDB格式。

4、其它数据库
    单碱基多态性数据库dbSNP：遗传学研究的一个重要方面是建立序列变化与可遗传表型之间的联系，其中最常见的序列变化就是单碱基多态性，大约在100到300碱基长度范围内，就出现一次单碱基的变化。SNP在医学上有非常重要的意义，目前科学家在SNP筛选和发现方面正在做大量的工作。
    蛋白质结构分类数据库SCOP：几乎对于任何一个蛋白质都能找到与其它一些具有相似结构的蛋白质，其中的一些蛋白质拥有一个共同的进化原始结构。这种关系对于了解蛋白质的进化和发展是非常关键的，同样对于分析基因组序列数据也是非常重要的。
    DSSP：是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质，根据其三维结构推导出对应的二级结构。因此，DSSP是一个二级数据库（相对于基本数据库）。这个数据库对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用。
    HSSP：是一个同源序列对比排列数据库，它也是一个二级数据库。对于一个蛋白质，HSSP结合三维结构数据和序列数据，其数据来源于PDB，或来源于其它蛋白质序列数据库，如SWISS-PROT。对于PDB中的每一个蛋白质，HSSP将与其同源的所有蛋白质序列对比排列起来，从而将相似序列的蛋白质聚集成结构同源的家族。如果家族成员中有一个已知三维结构，则可以推测家族其它成员的三维结构、二级结构或者折叠。所以HSSP不仅是序列家族对比排列数据库，同时该数据库隐含了二级结构和空间结构信息，这覆盖了SWISS-PROT中27%的蛋白质。
    OMIM：是关于人类基因和遗传疾病的分类数据库，由NCBI开发。OMIM主要的服务对象是医师、遗传疾病研究人员、生物医学高年级学生。在OMIM中，可以按照基因搜索数据库，也可以按照遗传疾病搜索数据库。
    EPD:是真核基因启动子数据库，提供从EMBL中得到的真核基因的启动子序列，目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。现有1500多个启动子序列数据，按照层次式方式组织数据。关于启动子的描述信息直接摘自科学文献，因而相对独立于EMBL。
    TRANSFAC:是真核基因顺式调控元件和反式作用因子数据库，数据搜集的对象从酵母到人类。TRANSFAC包括6类数据，SITE类数据是关于真核基因的单个调控位点信息；GENE类数据描述具有多个调控位点的基因信息；FACTOR类数据描述结合于这些位点的蛋白质因子信息；CELL类数据说明蛋白质因子的细胞来源；CLASS类数据包含转录因子分类的基本基本信息；MATRIX数据以矩阵的形式定量描述结合位点核苷酸的分布。
    BODYMAP:是关于人和老鼠基因表达信息的数据库，基因表达数据来自于不同组织、不同细胞以及不同时刻。通过分析这些数据，用户可以初步掌握基因活性，了解组织中mRNA的组成。
    Enzyme:是与酶命名数据库的信息库，主要是基于国际生化和分子生物学联合会命名委员会的推荐。对于研究酶或代谢途径操作等的计算机程序开发有用。

现在有好几百个数据库，包含了从DNA、蛋白质、细胞等不同层次的，不同物种的数据库，熟悉一些主要的数据库和检索方法，对于从事生命科学的研究人员来说越来越重要。