0如何下载原始测序数据

ZBL1314ZBL 2022-05-05 发布于上海

展开全文

导语

数据的获取是开展分析的前提。除却自己课题组测得的一些高通量测序数据外，NCBI和ENA数据库储存有海量的原始数据也是个很好的选择。我们既可以利用其中的数据进一步分析丰富自己的研究，也可以重新解读数据中那些未被作者注意到的生物学故事。相信大家见过一些高水平期刊，比如Nature communication、PNAS等，有一些研究者就是利用已发表的测序数据解读作者他们自己关注的生物学问题。但测序原始数据的数据量都很大，从几十G到上百G甚至上T，ENA和NCBI的服务器都在国外，那么我们该如何快速获得这些数据呢？

找数据

找相关论文，看原始数据存放的位置（即project编号）；或者直接登陆ENA、SRA数据库，查找目的样本的高通量测序数据。

方法

其中，利用迅雷、IDM下载本质上就是把数据文件所在链接位置的传给这些下载器进行下载。

1.FTP下载

原理：基于NCBI或ENA提供的数据的ftp链接下载

工具：axel （可多线程并行下载）

1.1 软件的安装

# 先测试一下电脑上有无该程序  
axel -h  
# 若没有则  
conda install axel

1.2 获得fastq或sra文件所在的ftp链接

网站：https://www./ena/browser/

输入数据存放的登陆号

勾选选项

下载tsv，内容如下

整理sra或fastq文件的下载链接为如下格式，文件名为links.txt

ftp.sra./vol1/fastq/SRR967/000/SRR9679840/SRR9679840_1.fastq.gz  
ftp.sra./vol1/fastq/SRR967/001/SRR9679841/SRR9679841_1.fastq.gz  
ftp.sra./vol1/fastq/SRR967/002/SRR9679842/SRR9679842_1.fastq.gz  
ftp.sra./vol1/fastq/SRR967/003/SRR9679843/SRR9679843_1.fastq.gz  
ftp.sra./vol1/fastq/SRR967/004/SRR9679844/SRR9679844_1.fastq.gz

1.3 生成下载数据的脚本

cat links.txt | while read line  
do  
echo "axel -n 30 ${line}" >> download.sh  
done  
# 其中 n 为线程数，我这里设置了30个线程

1.4 后台下载数据

nohup bash download.sh &

2.HTTP下载

原理：NCBI或ENA提供的数据的http链接下载；

工具：sratoolkit

2.1 软件的安装和配置

# 下载 网址：https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit  
# Ubuntu系统  
wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm./sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz  
# Centos系统  
wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm./sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz

下载好后，解压软件并进入安装目录

tar -zxvf sratoolkit.current-ubuntu64.tar.gz  
cd sratoolkit.current-ubuntu64/

软件配置（在最新版的sratoolkit会有这个步骤）

# shell下输入  
vdb-config -i

会出现以下界面

一般不要修改什么，在键盘上按 s 保存当前设置，再按 x 退出该界面即可。为了方便使用可以把该软件的bin目录加入环境变量

echo "export PATH=$PATH:$PWD/bin" >> ~/.bashrc  
测试一下是否能正常调用软件
which fastq-dump  
# or  
fastq-dump -h

2.2 下载数据

准备SRR run编号到一个文件，一个编号一行，文件名为SRR.run

SRR11861513  
SRR11864564  
SRR11865461  
SRR11861231  
SRR11865456  
SRR11868926  
SRR11864564

2.3 生成下载脚本

cat SRR.run | while read line  
do  
echo "prefetch -o ${line}.sra $line" >> SRR.download  
done

2.4 运行脚本，后台下载

nohup bash RedMuscat.download &

2.5 sra2fastq

cat SRR.run | while read line  
do  
echo "fastq-dump --split-3 ${line}.sra" >> sra2fastq.sh  
echo "bgzip ${line}_1.fastq" >> sra2fastq.sh  
echo "bgzip ${line}_2.fastq" >> sra2fastq.sh  
done# 运行脚本  
nohup bash sra2fastq.sh &

3.Aspera高速下载

原理：ENA提供的高速下载通道；

工具：aspera

3.1 软件的安装和配置

# 下载  
wget -c  http://download./download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz  
# 解压  
tar -zxvf ./aspera-connect-3.7.4.147727-linux-64.tar.gz  
# 安装  
./aspera-connect-3.7.4.147727-linux-64.sh  
# 判断安装是否成功  
ll -a #出现 .aspera目录即可  
# 加入.bashrc 方便使用软件  
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc  
# 判断是否成功添加添加环境变量  
ascp --help

3.2 获得下载链接

从SRA-Explore网站获得ascp下载脚本

网址：https:///

输入数据存放的登陆号

加入购物车，

点购物车

会出现如下界面（当然其它选项也都可以点点试试，看你个人的需求了）

copy是指copy代码到粘贴板，download是指把代码以文件的形式下载下来。最后把代码文件上传到服务器即可，然后下载数据

3.3 下载数据

vim download_fastq.sh # 创建脚本  
chmod +x download_fastq.sh # 更改权限  
nohup bash ./download_fastq.sh & # 放后台运行下载脚本

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： ZBL1314ZBL > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

ZBL1314ZBL

关注对话

TA的最新馆藏

相关性分析：Pearson、Kendall、Spearman
[转] 有人突破了CRISPR的局限，利用细菌毒素冲进了线粒体，剪起了DNA
[转] 靶向线粒体抗癌获突破！Nature：POLRMT变构抑制剂有效抗肿瘤，对健康细胞无显著影响
打破认知 PNAS|2020 核糖体蛋白参与植物细胞器内含子剪切
[转] 影响蛋白翻译调控的序列有哪些，你不会还不知道吧？
WGCNA分析，简单全面的最新教程

喜欢该文的人也喜欢更多

热门阅读换一换