【原】高通量数据下载还能这样操作?

健明 2021-07-14

展开全文

本文属于转录组入门系列（RAN-seq基础入门传送门 http://www./thread-1750-1-1.html ）第2部分内容，以一篇Nature文章为例，详细解读如何从NCBI下载高通量测序数据。

文章

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

数据

根据文章中的提示，打开NCBI上的GEO数据库（https://www.ncbi.nlm./geo/）

在搜索框中输入登录号“GSE81916”。在新打开的页面中，拉到底端即可看到文章的可下载数据。其中Download family是经过GEO数据库整理和标准化的数据，Supplementary file是原始数据，提供SRA格式的文件（通过ftp下载）和bw压缩格式的文件（通过 http下载，点击custom可以选择要下载的文件）

ftp链接打开后显示有15个SRR文件

点击custom后显示有15个bw文件（bw文件是精简版的bam文件），可以选择想要的文件后再下载。

根据“Sample”以及“Overall design”中的信息可以大概看出，属于RNA-seq的数据有：第9-15个样品，即GSM2177723到GSM2177729。但是它们对应的是哪些SRA文件呢？

以GSM2177724为例，直接点击，一路点下去我们就能看到它对应的是SRR3589957.sra这个文件。

从NCBI下载数据

那么如何下载这些数据呢？ GEO数据库已经给出了答案：

但是看完后依然不明白具体的下载方法，于是我自己摸索出了以下的下载方法：

1.直接点击http或者ftp连接依次点击下载全部打包文件。

这个方法下载速度很慢。

2.linux下通过sratoolkit工具中的prefetch命令下载：

prefetch SRR3589948

这种方法常常出现链接失败，或者链接断掉。

3.参考某篇博客中提到的方法

（ http://blog.sina.com.cn/s/blog_7f1542270102wdk4.html ）：NCBI---SRA---搜索SRP075747---选择全部文件---send to----file---format:Runifo---creat file 即生成一个SraRuninfo.csv的文件，根据文件中的下载地址，用wget命令批量下载：

tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #将csv文件中的逗号分割替换成tab分割
head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其中下载路径是第几列
10 downloas_path #返回结果显示是在第10列
tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列，并利用wget进行下载
#依次下载太慢，可以生成脚本并行下载
tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本
bash download.sh #运行脚本进行并行下载

4.使用Aspera

教程： http://boyun./bio/?p=1933 以及： http://blog.csdn.net/xubo245/article/details/50513201 但是实际操作时我在Aspera官网上看到“Aspera connect ”有server和client两种

Server版的点击后毫无反应

Client版的只有windows系统下的浏览器插件

根据提示在window上安装好aspera后，再进入 GEO数据库尝试下载sra文件，但是 aspera并不启动。后来，终于找到了这一篇文章： http://mp.weixin.qq.com/s/oCmngiD3-zBDx6cUC4Fw 原来通过Aspera下载，需要进入到特定的NCBI网址： https://www.ncbi.nlm./projects/faspftp/

从这里根据SPR075747这个study编号，找到文章中所有的原始数据，就可以通过 Aspera client下载了，速度嘛，也不快，300多k。

5.使用GEOquery

无意中找到Jimmy大神的一篇帖子（ http://www./bioconductor_China/software/GEOquery.html ），介绍了用R包GEOquery下载GEO数据库中的数据的方法，可参考。

以上就是我尝试的5种下载方法，最终我还是通过命令行的方法批量下载的。尽管下载的过程中我也学到了不少新技能，但是相对于我的目标（分析数据）来说，花太多时间纠结下载方法其实并不好，应该尽量将精力集中在最核心的技能的学习中。生物信息分析中最核心的技能是什么？环境配置？软件安装？数据下载不，不是。而应该是解读数据，从数据中回答生物学问题！这才是我们应用生物信息学的最终目的。

作业

关于GEO/SRA数据库

GEO数据库

GEO数据库隶属于NCBI，是最大最全面的基因表达数据库，主要是芯片和转录组测序数据。除储存数据外，也提供一些数据挖掘工具，因此利用好这个数据库，没有实验，没有自己的数据也能发好文章!

参考介绍： https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html

SRA文件的存放

从NCNI的这个站点（ https://www.ncbi.nlm./projects/faspftp/ ）可以看出，sra原始的reads数据是在sra/sra-instant/下的，该目录下的analysis是分析结果文件。

reads目录下，又分为ByExp，ByRun和ByStudy三个目录，每个目录下都有sra子目录，而且又分为三个子目录，所以从这里找sra文件是非常繁琐的。不如从GEO主页上直接搜索编号。

软件及参数

回帖：Tophat2.0.13，参考基因组GRCh37/hg19，gene transfer file（GTF version GRCh37.70），去掉MQ>30的reads（low quality mapped reads）
计算reads count： HTSeq0.6.0
差异表达基因：DEseq3.0
deferential exon usage：DEXSeq3.1
read per million normalization： BEDTools2.17.0, bedGraphToBigWigtool 4.