一 Nr数据库
那么nr数据库到底算是核酸还是蛋白的数据库呢? 从blast官网给出的上面的截图可以看出,nr既在蛋白也在核酸数据中有。因为对于所有已知的或可能的编码序列,nr中的记录都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来),对于很多还给出了在专门蛋白数据库中的序列号。而PDB + SwissProt + PIR + PRF这些蛋白数据库中的条目,都给出了编码它们的核酸序列号,可以索引到nr中的相关序列。所以说nr相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。 二、GenBankGenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。 完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。 目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。 序列条目的关键字包括LOCUS (代码),DEFINITION (说明),ACCESSION (编号),NID符(核酸标识),KEYWORDS (关\键词),SOURCE (数据来源),REFERENCE (文献),FEATURES (特性表),BASE COUNT (碱基组成)及ORIGIN (碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID。 LOCUS (代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述。 ACCESSION (编号):具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此编号为准。 KEYWORDS (关键词)字段:由该序列的提交者提供,包括该序列的基因产物以及其它相关信息。 SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血(umbilical vein)。次关键字ORGANISM (种属)指出该生物体的分类学地位。 REFERENCE (文献)字段:说明该序列中的相关文献,包括AUTHORS (作者),TITLE (题目)及JOURNAL (杂志名)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。 FEATURES (特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库。 三、 RefSeq
RefSeq和LocusLink是基于NCBI和其他组织合作的校正的数据库。两者都使用由人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。 GenBank是一个公共可获得的序列记录备份,由数据发现者提供,它不是一个校正的数据库。GenBank记录提交者保有对他们记录的编辑权并可以决定使用那个基因符号。有些作者同相关物种命名委员会讨论,从那里得到他们测序基因的那个物种的官方基因符号。其他作者可能没有那么做。因此,那有可能一个基因的GenBank记录会使用不同的基于符号。 RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的,但RefSeq和GenBank是分开的数据库,而且两者都是可以通过在Entrez nucleotide中输入各自的ACCESSION获得。开始时临时的RefSeq记录与GenBank记录非常相似。但是,当RefSeq记录被专家review以后,新增的序列数据、生物学注解、和参考文献常被加入。那时,RefSeq条目(即序列)代表一个来自不同实验室的综合信息,这时二者可以非常不同。 GenBank是一个多种序列的存储池,对每个基因都含有许多序列。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。 RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的(reviewd)。检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。 四、UniProtUniProt是 Universal Protein 的英文缩写,是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。它的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。 UniProt包含3个部分: (1)UniProt Knowledgebase(UniProt),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋白质序列的历史。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。 蛋白质分析数据库(uniprot):对uniprot蛋白数据库,包括其数据和序列格式,检索工具以及一些免费工具做出详细的介绍。 总结:简单的说,nr相当于一个将核酸数据和蛋白数据联系起来的交叉索引,GenBank是核苷酸数据库,RefSeq是基因数据库,UniProt是蛋白质数据库。他们之间无疑有着很深的联系,但区别在于数据库系统,形式,和范围。
|
|