分享

TCGA数据下载

 生物_医药_科研 2019-01-29

     TCGA作为一个重要的数据库,其下载数据的方式有很多种,今天我给大家总结整理一下目前TCGA数据下载的几种方式:


一:使用TCGA官网推荐的下载软件GDC-client进行下载

方法如下:

1、进入GDC官网:

https://portal.gdc.cancer.gov/

2、进入Repository,根据分析需求选择Files和Cases

3、然后点击Add All Files to Cart, 下载manifest

4、最后在服务器上运行:/gdc-client download -m manifest -d outdir

注意:官网上下载的TCGA数据每一个样品是一个独立的文件,后期分析需要整合到一起。


二:UCSC Xena下载

方法如下:

1、进入Xena官网:

https://xena.ucsc.edu/public-hubs/

 该网站不仅提供TCGA数据库的下载,也提供了ICGC、TARGET等数据库的下载

2、选择TCGA (The Cancer Genome Atlas),比如我们要下载乳腺癌数据,进入TCGA Breast Cancer (BRCA)

3、比如我们想下载mRNA的表达数据,就可以选择gene expression RNAseq下的IlluminaHiSeq

4、最后点击download下的gz格式文件就可以下载所需数据

注意:Xena下载的TCGA数据都是多样品整合到一起的,但是对于转录组数据来说下载的表达量的值都是矫正后的readcount, 不提供原始的readcount值。


三:GDAC filehose下载

方法如下:

1、进入GDAC BROAD官网:

http://gdac.broadinstitute.org/

2、选择Dashboard-Stddata, 比如我们要下载乳腺癌的数据,就选择BRCA,点击Open进入下载页面

3、该目录下文件相对比较多,可以根据自己的需求进行下载

注意:GDAC filehose下载的数据不是TCGA实时更新的,此外,该方式下载的数据既有原始数据也有经过整理的数据。


四:R的TCGABiolinks下载

library('TCGAbiolinks')query <- GDCquery(project = 'TCGA-BLCA', data.category = 'Copy Number Variation', data.type = 'Copy Number Segment')#数据下载GDCdownload(query)#数据整理cnvdat <- GDCprepare(query = query)

注意:TCGABiolinks下载的数据与官网下载的相类似,每一个样品是一个单独的文件,但是可以直接放在R里面进行后续分析,比较方便。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多