这是个简短的教程,目的是介绍几种比较方便快捷的下载SRA、SAM及Fastq文件的方法。 SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。 ENA数据库:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),功能同SRA,并且对数据做了注释,界面更友好,当然对于我们来说,最诱人的当属可直接下载fastq (.gz)文件这一项了。 多数情况下,我们下载sra文件是为了获取相应的fastq或者sam文件,这样可以和自己的pipeline对接上,直接分析,所以 1. 找地方:用手头上的SRR (SRA Run)序列号去ENA搜索,如果有,就在这儿下;如果没有,就去SRA数据库下载 2. 选方法:
警告:不要用wget或curl去下载sra文件,这会导致下载的文件不完整! 首先,进入Aspera Connect的下载页面,选择linux版本,复制下载地址 wget http://download./download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gztar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz# 安装bash aspera-connect-3.7.4.147727-linux-64.sh# 查看是否有.aspera文件夹cd # 去根目录ls -a # 如果看到.aspera文件夹,代表安装成功# 永久添加环境变量echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc# 查看帮助文档ascp --help 至此,安装完成,下面介绍如何利用
在线文档(https://download./download/docs/ascp/2.6/html/index.html?https://download./download/docs/ascp/2.6/html/fasp/ascp.html) 先了解几个
ASCP使用案例 SRA数据库下载:首先记住,数据的存放地址是
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/
ENA数据库下载:这里和上面不同,数据的存放地址是
ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR949/SRR949627/SRR949627_1.fastq.gz ~/biostar/aspera/
参考资料 使用速铂Aspera下载NGS数据 |
|