接下来就稍微有点不同了,如果只是比较少量的样本,直接点击 Download即可下载,每个样本都是一个压缩文件。但是,TCGA数据库在数据下载有规定:让Cart文件夹大于50M时(这个依据网络情况,和下载用户数目),只能通过Data Transfer Tool工具进行下载。所以我这次要使用Data Transfer Tool工具来下载数据。
首先是要安装Data Transfer Tool,总共工具很简单,我是选择windows系统来安装的,下载后解压缩即可使用。至于怎么用,我刚开始看到是.exe文件,就以为是软件界面的,后来才发现原来是通过命令行下载的。先从刚才是Cart界面点击 Download选择下载Manifest,然后在windows的cmd中输入下载命令:
进入网站后,点击上方的 Dashboards下的 Standard Data,然后再点击网页上的乳腺癌(BRCA)对应的 open按钮,结果会出现一系列文件可供下载,为什么更好的跟第一种方法进行比较,我选择了下载RNA-Seq的count数据对应的文件,可以选择下载gdac.BRCA.MergernaseqilluminahiseqrnasequnceduLevel3geneexpression_data.Level3.2016012800.0.0.tar.gz,其实还有个rnaseqv2对应文件,刚开始我也是下载错了,后来查了下才发现前者和后者是有区别的,官方给的解释是:rnaseqv2相比rnaseq采用不同的算法(我看了下似乎是用RSEM进行定量的?因为rnaseq是采用htseq来定量的),但是呢rnaseqv2相比rnaseq样本数多一点。
RNASeq Version 2 is similar to RNASeq in that it uses sequencing data to determine gene expression levels. RNASeq Version 2 uses a different set of algorithms to determine the expression levels are the results are presented in a slightly different set of files.
下载后将文件夹解压,里面有不少文件,我先只拿count文件来看看,这里就显示出Firehose下载的好处了,不用像第一种方法那样将一个个样本合并,其下载结果就是合并好的数据,而且已经将Ensembl id 转化成entrez id/gene symbol,很是方便。