分享

听说aspera下载会失败,我也解决不了啊

 健明 2021-07-14

在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟快一点点,所以不得不求助IBM的aspera加速器。这也是我们每次授课都会介绍的各种国内科研数据处理专用小技巧

首先下载软件

老规矩,conda解决一切依赖

conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools

然后prefetch下载数据

/SRR5907429prefetch SRR5907429

可以看到速度很可怜:

一分钟才一两个M

然后使用aspera加速

which ascp 
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh l
ascp -v -k 1 -T -l 200m -i \
~/miniconda3/etc/asperaweb_id_dsa.openssh \
 dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/sra51/SRR/005768/SRR5907429 ./ 

其实就是解析url规律,然后构建上面的命令,需要替换的仅仅是 SRR5907429

下载速度通常是100M每秒左右

但是有趣的是,下载快结束的时候,被困住了。

100%  393MB           - stalled -

换一个数据下载:

ascp -v -k 1 -T -l 200m -i ~/miniconda3/etc/asperaweb_id_dsa.openssh  dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/sra15/SRR/001015/SRR1039513 ./

仍然是被困住,很有趣。

换一个服务器

很轻松就下载ok了。

conda create -n  download
conda activate download
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools

$ascp -v -k 1 -T -l 200m -i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh  dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/sra51/SRR/005768/SRR5907429 ./
SRR5907429                                                                                                                                                        100%  393MB 30.3Mb/s    01:53
Completed: 402572bytes transferred in 114 seconds
 (28833K bits/sec), in 1 file.

很诡异哦

# 而且文件大小不一样
379M Aug  8 16:05 SRR5907429
394M Aug  8 15:57 SRR5907429

其实没有解决这个问题

因为我换海外服务器就解决了,所以懒得去解决这个中国大陆特色bugs,而且根据学徒们的反馈,这个中国大陆特色bugs也不是每次都出现,偶尔也能下载成功,而下载数据只是我们NGS数据处理的一个小步骤罢了。

如果你也遇到了同样的数据下载问题,欢迎留言讨论。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多