配色: 字号:
使用NCBI做BLAST,我应该选择哪个Database
2020-02-13 | 阅:  转:  |  分享 
  
使用NCBI做BLAST,我应该选择哪个DatabaseNCBI(NationalCenterforBiotechnologyIn
formation)由美国国立卫生研究院(NIH)于1988年创办,创办NCBI的初衷是为了给分子生物学家提供一个信息储存和处理
的系统。除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分
子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。其中NCBI提供的
BLAST工具相信访问过NCBI的每个科学研究人员都用过该序列比对工具,但是在使用BLAST工具进行序列比对时,往往都要选择一个D
atabase进行比对,那如何选择呢?BLAST工具一:NucleotideBLASTNucleotideBLAST是核苷酸与
核苷酸比对工具,进行比对时,选择Standarddatabase中具体哪一种database进行比对呢?每种database都包
含哪些序列信息呢?Nucleotidecollection(nr/nt)Database描述:包含了除EST,STS,GSS,W
GS,TSA,patent,HTGS以及长度超过100Mb序列以外的包含在GenBank,EMBL,DDBJ,PDB,RefSeq
中的所有序列。使用环境:未知序列,在不清楚序列物种,序列来源,序列类型的情况下可优先考虑序列类型:mixedDNA更新时间:20
19/10/03序列数量:55908648ReferenceRNAsequences(refseq_rna)Database描
述:包含了refseq数据库中的NM_,NR_,XM_,XR_序列记录,区别于RefseqmRNA。使用环境:知道序列对应的基因
名称,可以考虑选择该Database进行序列比对序列类型:cDNA更新时间:2019/09/26序列数量:33713514RefS
eqRepresentativeGenomeDatabaseDatabase描述:该数据库以最小冗余度建立,包含了从NCBI
Refseq基因组数据库中选择的参考和代表性基因组,其结果是该数据库中的基因组是NCBI提供的质量最好的基因组序列信息。对于真核
生物,每个生物仅包含一个基因组。但是,对于其他生物,可能包括来自同一生物(例如大肠杆菌)的不同分离株的多个基因组。使用环境:判断序
列大概有几个外显子组成,或者某段序列在基因组中的位置,方向等序列类型:Genomic更新时间:2015/09/30序列数量:134
54918RefSeqGenomeDatabase(refseq_genomes)Database描述:包含了所有分类物种的N
CBIRefseq基因组序列。它仅包含顶层(top-level)序列,即仅包含代表基因组任何给定部分的最长序列。虽然包含组装的染
色体序列,但用于组装此染色体序列的任何较短序列,例如重叠群(contigs)不包括在内。使用环境:判断序列大概有几个外显子组成,或
者某段序列在基因组中的位置,方向等序列类型:Genomic更新时间:2016/12/14序列数量:33120025BLAST工具二
:Primer-BLAST对于Standarddatabase的介绍就到这里,NCBI中还有一类特殊比对工具,这里主要介绍Pri
mer-BLAST比对工具中的各Database的区别。nr(Nucleotidecollection)Database描述:包
含了除EST,STS,GSS,WGS,TSA,patent,HTGS以及长度超过100Mb序列以外的包含在GenBank,EMBL
,DDBJ,PDB,RefSeq中的所有序列。2、RefseqmRNADatabase描述:只包含了NCBIRefseq数据
库中编码蛋白质的mRNA。.3、RefseqRNADatabase描述:包含了NCBIRefseq数据库中编码蛋白质的mRN
A和非编码RNA。RefseqmRNA和RefseqRNA区别:举例NCBIhumanGLYR1(GeneID:846
56)有5个NM号,6个NR号,7个XM号,4个XR号。在使用AGTCGTCTCAACCTGCGACAT和GCCGCTAAGATC
ACCAACATC这对qPCR引物进行比对,结果为:如果选择RefseqmRNA比对,只能比对到5个NM号和7个XM号;如果选择
RefseqRNA比对,比对到5个NM号,6个NR号,7个XM号,4个XR号。4、Refseqrepresentativeg
enomesDatabase描述:该数据库以最小冗余度建立,包含了从NCBIRefseq基因组数据库中选择的参考和代表性基因组,
其结果是该数据库中的基因组是NCBI提供的质量最好的基因组序列信息。Genomesforselectedorganisms
(primaryreferenceassemblyonly)Database描述:包含了来自主要染色体装配的完整或接近完整的
基因组序列,可以选择限定的物种有:apismellifera,bostaurus,daniorerio,dog,droso
philamelanogaster,gallusgallus,human,mouse,pantroglodytes,pig,
rat。Refseqrepresentativegenomes与Genomesforselectedorganisms
(primaryreferenceassemblyonly)的区别:前者完全包含后者,后者Genomesforselec
tedorganisms(primaryreferenceassemblyonly)不包含替代基因组,因此比Refseq
representativegenomes数据库具有更少的冗余。如果您不考虑替代基因组或者线粒体序列,建议在进行qPCR引物特
异性比对时推荐使用Genomesforselectedorganisms(primaryreferenceassemblyonly)。总结:选择正确的,合适的Database能够让我们非常容易的分析结果,另外,Database选择不合适可能会导致错误的判读哦,后面大家在使用BLAST工具时如果碰到此种情况,建议更换Database重新比对试试。
献花(0)
+1
(本文系雨荷朕来了首藏)