Nr,GenBank, RefSeq, UniProt 数据库的异同

微笑如酒 2017-09-27

展开全文

一 Nr数据库

non-redundant protein sequence database with entries from GenPept, Swissprot, PIR, PDF, PDB,and NCBI RefSeq
nr库：nucleotide sequence database, with entries from all traditional divisions of GenBank, EMBL, and DDBJ excluding bulk divisions (gss, sts, pat, est, and htg divisions. wgs entries are also excluded. Not non-redundant.

那么nr数据库到底算是核酸还是蛋白的数据库呢？

从blast官网给出的上面的截图可以看出，nr既在蛋白也在核酸数据中有。因为对于所有已知的或可能的编码序列，nr中的记录都给出了相应的氨基酸序列（通过已知或可能的读码框推断而来），对于很多还给出了在专门蛋白数据库中的序列号。而PDB + SwissProt + PIR + PRF这些蛋白数据库中的条目，都给出了编码它们的核酸序列号，可以索引到nr中的相关序列。所以说nr相当于一个以核酸序列为基础的交叉索引，将核酸数据和蛋白数据联系起来。

二、GenBank

GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核苷酸碱基排列顺序和注释两部分。

目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。GenBank序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。

序列条目的关键字包括LOCUS (代码)，DEFINITION (说明)，ACCESSION (编号)，NID符(核酸标识)，KEYWORDS (关\键词)，SOURCE (数据来源)，REFERENCE (文献)，FEATURES (特性表)，BASE COUNT (碱基组成)及ORIGIN (碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV (序列版本号)，用“编号.版本号”表示，并取代关键词NID。

LOCUS (代码)：是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述。

ACCESSION (编号)：具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此编号为准。

KEYWORDS (关键词)字段：由该序列的提交者提供，包括该序列的基因产物以及其它相关信息。

SOURCE (数据来源)字段：说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血(umbilical vein)。次关键字ORGANISM (种属)指出该生物体的分类学地位。

REFERENCE (文献)字段：说明该序列中的相关文献，包括AUTHORS (作者)，TITLE (题目)及JOURNAL (杂志名)等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。

FEATURES (特性表)：具有特定的格式，用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库。

三、 RefSeq

refseq_genomic ：NCBI genomic reference sequences
refseq_protein：NCBI protein reference sequences

RefSeq和LocusLink是基于NCBI和其他组织合作的校正的数据库。两者都使用由人类基因命名委员会定义的术语，并且包括了官方的基因符号和可选的符号。

GenBank是一个公共可获得的序列记录备份，由数据发现者提供，它不是一个校正的数据库。GenBank记录提交者保有对他们记录的编辑权并可以决定使用那个基因符号。有些作者同相关物种命名委员会讨论，从那里得到他们测序基因的那个物种的官方基因符号。其他作者可能没有那么做。因此，那有可能一个基因的GenBank记录会使用不同的基于符号。

RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的，但RefSeq和GenBank是分开的数据库，而且两者都是可以通过在Entrez nucleotide中输入各自的ACCESSION获得。开始时临时的RefSeq记录与GenBank记录非常相似。但是，当RefSeq记录被专家review以后，新增的序列数据、生物学注解、和参考文献常被加入。那时，RefSeq条目（即序列）代表一个来自不同实验室的综合信息，这时二者可以非常不同。

GenBank是一个多种序列的存储池，对每个基因都含有许多序列。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复，是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。

RefSeq记录是有三种可以获得的状态：预测的，临时的和检查过的（reviewd）。检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。

四、UniProt

UniProt是 Universal Protein 的英文缩写，是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。它的数据主要来自于基因组测序项目完成后，后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。

UniProt包含3个部分：

（1）UniProt Knowledgebase（UniProt），这是蛋白质序列、功能、分类、交叉引用等信息存取中心；（2）UniProt Non-redundant Reference（UniRef）数据库，该数据库将密切相关的蛋白质序列组合到一条记录中，以便提高搜索速度；目前，根据序列相似程度形成3个子库，即UniRef100、UniRef90和UniRef50；（3）UniProt Archive（UniParc），是一个资源库，记录所有蛋白质序列的历史。用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP 下载数据。

蛋白质分析数据库（uniprot）：对uniprot蛋白数据库，包括其数据和序列格式，检索工具以及一些免费工具做出详细的介绍。