导语数据的获取是开展分析的前提。除却自己课题组测得的一些高通量测序数据外,NCBI和ENA数据库储存有海量的原始数据也是个很好的选择。我们既可以利用其中的数据进一步分析丰富自己的研究,也可以重新解读数据中那些未被作者注意到的生物学故事。相信大家见过一些高水平期刊,比如Nature communication、PNAS等,有一些研究者就是利用已发表的测序数据解读作者他们自己关注的生物学问题。但测序原始数据的数据量都很大,从几十G到上百G甚至上T,ENA和NCBI的服务器都在国外,那么我们该如何快速获得这些数据呢? 找数据找相关论文,看原始数据存放的位置(即project编号);或者直接登陆ENA、SRA数据库,查找目的样本的高通量测序数据。 方法其中,利用迅雷、IDM下载本质上就是把数据文件所在链接位置的传给这些下载器进行下载。
1.FTP下载原理:基于NCBI或ENA提供的数据的ftp链接下载 工具:axel (可多线程并行下载) 1.1 软件的安装# 先测试一下电脑上有无该程序 axel -h # 若没有则 conda install axel
1.2 获得fastq或sra文件所在的ftp链接网站:https://www./ena/browser/ 输入数据存放的登陆号 勾选选项 下载tsv,内容如下 整理sra或fastq文件的下载链接为如下格式,文件名为links.txt
ftp.sra./vol1/fastq/SRR967/000/SRR9679840/SRR9679840_1.fastq.gz ftp.sra./vol1/fastq/SRR967/001/SRR9679841/SRR9679841_1.fastq.gz ftp.sra./vol1/fastq/SRR967/002/SRR9679842/SRR9679842_1.fastq.gz ftp.sra./vol1/fastq/SRR967/003/SRR9679843/SRR9679843_1.fastq.gz ftp.sra./vol1/fastq/SRR967/004/SRR9679844/SRR9679844_1.fastq.gz
1.3 生成下载数据的脚本cat links.txt | while read line do echo "axel -n 30 ${line}" >> download.sh done # 其中 n 为线程数,我这里设置了30个线程
1.4 后台下载数据nohup bash download.sh &
2.HTTP下载原理:NCBI或ENA提供的数据的http链接下载; 工具:sratoolkit 2.1 软件的安装和配置
# 下载 网址:https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit # Ubuntu系统 wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm./sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz # Centos系统 wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm./sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz
下载好后,解压软件并进入安装目录 tar -zxvf sratoolkit.current-ubuntu64.tar.gz cd sratoolkit.current-ubuntu64/
软件配置(在最新版的sratoolkit会有这个步骤) # shell下输入 vdb-config -i
会出现以下界面 一般不要修改什么,在键盘上按 s 保存当前设置,再按 x 退出该界面即可。为了方便使用可以把该软件的bin目录加入环境变量 echo "export PATH=$PATH:$PWD/bin" >> ~/.bashrc
测试一下是否能正常调用软件 which fastq-dump # or fastq-dump -h
2.2 下载数据准备SRR run编号到一个文件,一个编号一行,文件名为SRR.run SRR11861513 SRR11864564 SRR11865461 SRR11861231 SRR11865456 SRR11868926 SRR11864564
2.3 生成下载脚本cat SRR.run | while read line do echo "prefetch -o ${line}.sra $line" >> SRR.download done
2.4 运行脚本,后台下载nohup bash RedMuscat.download &
2.5 sra2fastqcat SRR.run | while read line do echo "fastq-dump --split-3 ${line}.sra" >> sra2fastq.sh echo "bgzip ${line}_1.fastq" >> sra2fastq.sh echo "bgzip ${line}_2.fastq" >> sra2fastq.sh done# 运行脚本 nohup bash sra2fastq.sh &
3.Aspera高速下载原理:ENA提供的高速下载通道; 工具:aspera 3.1 软件的安装和配置# 下载 wget -c http://download./download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz # 解压 tar -zxvf ./aspera-connect-3.7.4.147727-linux-64.tar.gz # 安装 ./aspera-connect-3.7.4.147727-linux-64.sh # 判断安装是否成功 ll -a #出现 .aspera目录即可 # 加入.bashrc 方便使用软件 echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc # 判断是否成功添加添加环境变量 ascp --help
3.2 获得下载链接从SRA-Explore网站获得ascp下载脚本 网址:https:/// 输入数据存放的登陆号 加入购物车, 点购物车 会出现如下界面(当然其它选项也都可以点点试试,看你个人的需求了) copy是指copy代码到粘贴板,download是指把代码以文件的形式下载下来。最后把代码文件上传到服务器即可,然后下载数据
3.3 下载数据vim download_fastq.sh # 创建脚本 chmod +x download_fastq.sh # 更改权限 nohup bash ./download_fastq.sh & # 放后台运行下载脚本
|