多线程解压SRA文件这个软件用起来跟fastq区别不大,主要区别在于 -e 这个指令,可以指定线程数。 这里使用 -e 16指定16线程运行。 fasterq-dump -e 16 --split-files -O ~/tmp SRR1039510.sra 运行结果: spots read : 22,852,619 下面看一下成成的文件:已经解压成_1.fastq和 _2.fastq两个文件,大小都是6.1G。 ls ~/tmp -ltrh 与fastq的对比time fastq-dump --split-files -O ~/tmp SRR1039510.sra real 2m4.557s time fasterq-dump -e 16 --split-files -O ~/ SRR1039510.sra real 1m4.481s 可以看到,fasterq实际运行时间是1m4s,fastq是2m4s,确实快了不少,不过好像没有快个16倍,比心理预期要慢一点。实际运行过程中我们用top指令发现,尽管指定了16线程,但CPU占用率只是短暂地超过100%。大多数时间在70-80%,而fastq则稳定在95%以上。我猜测可能是文件拆分之类的过程限制了多线程的速度。 除此之外,fasterq没有 -gzip 和-bzip2指令,所以无法像fastq那样输出压缩格式的文件,占用存储空间会比较大。 常用参数-O|--outdir 指定输出目录 Referencefasterq使用说明: https://www./article/14565.html 如果你对生物信息学数据处理感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程 |
|