分享

【生信笔记】高速下载测序数据:Aspera的安装与使用

 赵坤yb0sabwlt1 2020-12-24

当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载。但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Aspera软件高速下载测序数据。

软件概述

Aspera是IBM公司的一款高速传输软件,创造了新一代的传输技术(faspTM),并能不受文件大小、形态、传输距离、网络条件限制,以最高效的速度来协助用户迁移各地的数据。使用 fasp传输专利技术,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。

软件的安装

Aspera支持Windows、MAC和Linux系统,而由于数据量较大,一般存储在服务器,因此我们在这里为大家介绍Linux系统的软件安装与使用。

1. 下载安装包

wget https://download./download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

其他版本的下载网址为:https://downloads./en/downloads/8?list,选择相应系统下载。

2. 安装软件

#解压安装包
tar -xvzf  ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
# 安装软件
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
#添加到环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

软件的使用

1. 可使用命令行查看使用方法

#查看帮助
ascp --help
# Aspera的用法:
ascp [参数] 目标文件 目的地址
# Aspera的常用参数:
-T  不进行加密。若不添加此参数,可能会下载不了。
-i string  输入私钥,服务器一般使用asperaweb_id_dsa.openssh 文件作为私钥。
-k 断点续传,一般设置为值1
-l string  设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s

2. 软件的下载,NCBI数据库的SRA文件存储于ftp.ncbi.nlm./sra/sra-instant/reads/,可根据相应测序数据进行点击查看,如https://ftp.ncbi.nlm./sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra ,下载命令为:

ascp -k 1 -QT -l 200M  -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra ./

命令及其含义:

  • -k 1 表示断点续传 

  • -l 200M 表示宽带限速200M,可提高下载速度

  • -QT 建议添加,否则可能报错 

  • -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh 表示密钥文件路径 
    anonftp@ftp-private.ncbi.nlm.:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra 表示下载路径,通过对比发将ftp://ftp.ncbi.nlm.换为anonftp@ftp-private.ncbi.nlm.:即可(注意冒号)

  • . 表示当前目录

同理可下载EBI数据库中的数据,ftp.sra.ebi.ac.uk/vol1/fastq/SRR478/002/SRR4785812/,则命令为

ascp -k 1 -QT -l 200M  -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@ftp.sra.ebi.ac.uk:/vol1/fastq/SRR478/002/SRR4785812/ ./

区别在于使用EBI数据库可下载fastq.gz格式的数据,直接用于后续分析,而不用进行sra的格式转换。

Linux系统在生物信息学数据处理方面的重要性不言而喻,本公众号接下来将基于Windows系统的Linux子系统推出系列生物信息学学习笔记,旨在帮助大家了解生物信息学,奠定生物信息学学习的基础。敬请期待!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多