UCSC Xena是由加州大学圣克鲁兹分校(University Of Cingifornia Sisha Cruz,UCSC)维护的数据库,前身是癌症基因组浏览器Cancer Browser https://genome-cancer./, Cancer Browser目前已经不再更新,收录的TCGA数据基本停留在2015-02-24的版本,如下: 官方推荐使用UCSC Xena http://xena./ 主页很小清新,该工具收录了包含TCGA、ICGC、TARGET等多个数据库的公共数据,并对数据进行了标准化的处理,使其更易于后续分析,Xena本身也提供了数据分析功能。 进入TCGA数据下载板块: 对于TCGA,目前提供39组,共计829个数据集,包括类似COADREAD这种组合数据: 以COAD为例 https:///datapages/?cohort=TCGA%20Colon%20Cancer%20(COAD) 包含拷贝数、甲基化、基因表达、蛋白表达、突变等多个层面的数据,以miRNA表达数据为例: 可见提供分平台的成熟体miRNA表达值,Hiseq的样本量相对于GA要更多: https:///datapages/?dataset=TCGA.COAD.sampleMap/miRNA_HiSeq_gene&host=https://tcga. 点击上示表达值下载路径即可进行数据下载,解压后miRNA_HiSeq_gene格式如下: 对于数据中存在的大量NA,即表示没有reads比对到该成熟体miRNA上,故将其设置为0即可! 总结一下 优点:Xena操作简单,下载方便,可以下载到较新的TCGA数据; 缺点:无法下载到read count值; |
|