TCGA作为一个重要的数据库,其下载数据的方式有很多种,今天我给大家总结整理一下目前TCGA数据下载的几种方式: 一:使用TCGA官网推荐的下载软件GDC-client进行下载 方法如下: 1、进入GDC官网: https://portal.gdc.cancer.gov/ 2、进入Repository,根据分析需求选择Files和Cases 3、然后点击Add All Files to Cart, 下载manifest 4、最后在服务器上运行:/gdc-client download -m manifest -d outdir 注意:官网上下载的TCGA数据每一个样品是一个独立的文件,后期分析需要整合到一起。 二:UCSC Xena下载 方法如下: 1、进入Xena官网:
该网站不仅提供TCGA数据库的下载,也提供了ICGC、TARGET等数据库的下载 2、选择TCGA (The Cancer Genome Atlas),比如我们要下载乳腺癌数据,进入TCGA Breast Cancer (BRCA) 3、比如我们想下载mRNA的表达数据,就可以选择gene expression RNAseq下的IlluminaHiSeq 4、最后点击download下的gz格式文件就可以下载所需数据 注意:Xena下载的TCGA数据都是多样品整合到一起的,但是对于转录组数据来说下载的表达量的值都是矫正后的readcount, 不提供原始的readcount值。 三:GDAC filehose下载 方法如下: 1、进入GDAC BROAD官网: http://gdac.broadinstitute.org/ 2、选择Dashboard-Stddata, 比如我们要下载乳腺癌的数据,就选择BRCA,点击Open进入下载页面 3、该目录下文件相对比较多,可以根据自己的需求进行下载 注意:GDAC filehose下载的数据不是TCGA实时更新的,此外,该方式下载的数据既有原始数据也有经过整理的数据。 四:R的TCGABiolinks下载
注意:TCGABiolinks下载的数据与官网下载的相类似,每一个样品是一个单独的文件,但是可以直接放在R里面进行后续分析,比较方便。 |
|
来自: 生物_医药_科研 > 《TCGA数据下载》