分享

数据挖掘专题 | UCSC Xena下载 TCGA 数据

 unicheng 2018-04-09

UCSC Xena是由加州大学圣克鲁兹分校(University Of Cingifornia Sisha Cruz,UCSC)维护的数据库,前身是癌症基因组浏览器Cancer Browser 

https://genome-cancer./, Cancer Browser目前已经不再更新,收录的TCGA数据基本停留在2015-02-24的版本,如下:


官方推荐使用UCSC Xena 

http://xena./


主页很小清新,该工具收录了包含TCGA、ICGC、TARGET等多个数据库的公共数据,并对数据进行了标准化的处理,使其更易于后续分析,Xena本身也提供了数据分析功能。


进入TCGA数据下载板块:


对于TCGA,目前提供39组,共计829个数据集,包括类似COADREAD这种组合数据:

以COAD为例

https:///datapages/?cohort=TCGA%20Colon%20Cancer%20(COAD)

包含拷贝数、甲基化、基因表达、蛋白表达、突变等多个层面的数据,以miRNA表达数据为例:

可见提供分平台的成熟体miRNA表达值,Hiseq的样本量相对于GA要更多:

https:///datapages/?dataset=TCGA.COAD.sampleMap/miRNA_HiSeq_gene&host=https://tcga.

点击上示表达值下载路径即可进行数据下载,解压后miRNA_HiSeq_gene格式如下:

对于数据中存在的大量NA,即表示没有reads比对到该成熟体miRNA上,故将其设置为0即可!


总结一下

优点:Xena操作简单,下载方便,可以下载到较新的TCGA数据;

缺点:无法下载到read count值;


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多