Categorized | 生物信息学
Tags | GenBank, NCBI, 下载序列, 生物信息软件如何在NCBI批量下载GenBank序列
GenBank的序列很多,有时我们需要批量下载。这里介绍几种办法,如何从NCBI批量下载GenBank序列。有不对的地方,欢迎指正。
批量下载前须知
批量下载前,我们必须先清楚,下载大量的数据,对服务器是一种非常大的挑战。对网络也是一种大的挑战。NCBI的数据都是免费提供下载的,所以你要清楚,尽量不要使用多线程的工具下载,因为你的IP有可能给封;不要太频繁的大批量下载,中间要有间隔(即使是几秒);
1,用NCBI提供的FTP下载
NCBI的FTP地址是:ftp.ncbi.。打开后里面有个genbank的目录,里面存放的是所有GenBank的序列和Accession的索引。对里面的格式不明白?没关系,先看看说明文档:ftp.ncbi./genbank/README.genbank
如果要下载现在的Blast库,打开blast目录。
如果要下载基因组序列,进入genomes目录。
全部的目录:
ncftp / > ls
1000genomes/
dbgap/
genomes/
pubchem/
repository/
sra0/
asn1-converters@
entrez/
hapmap/
pubmed/
sequin/
sra1/
blast/
fa2htgs/
mmdb/
ramdisk/
sky-cgh/
tech-reports/
cgap/
genbank/
ncbi-asn1/
README.ftp
snp/
toolbox/
cn3d/
gene/ |