这个数据库不光是包含TCGA的数据,同时也收录了其他的热门数据,本次主要说一说TCGA 点击TCHA hub之后会跳转到如下界面: 包括一些简要的文字说明和详细的数据连接,我们以乳腺癌为例点击: 包括:copy number (gene-level); copy number segments; DNA methylation;exon expression RNAseq; gene expression array; gene expression RNAseq; miRNAmature strand expression RNAseq; PARADIGM pathway activity; phenotype; proteinexpression RPPA; somatic mutation (SNPs and small INDELs); somatic non-silentmutation (gene-level); Transcription factor regulatory impact。几乎把所有在TCGA上能下载到的数据都做好了整理并分类(由于网站内容较多,截图为网站部分内容)。 然后我们选择gene expression RNAseq 这一条目来探索里面的数据 里面有对该组数据详细的文字说明,包含了来源,数据收录的时间,下载链接,样本数等等。 同时还贴心的提供了数据预览(已经把数据整理成表达谱的格式): 这套乳腺癌RNAseq的数据大小为61.31M,以笔者当前下载速度约100kb/s(毕竟是外国的网站),下载这一套数据大约10-15分钟。下图为下载好的数据部分截图: |
|