ZSCI TCGA数据库目前是科研中最常用的数据库之一,其中储存着多种疾病的各组学的数据,借助该数据库,帮助了很多研究生们发表了自己的文章,达到了毕业条件。 一、基于TCGA官网下载RNAseq数据 1、 TCGA数据库简介 TCGA数据库全称为The Cancer Genome Atlas,主要储存关于各类肿瘤的一个基本信息,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等信息,它是目前为止可以获得的公开数据库里面数据相对全面的一个,在各个领域得到了广泛的应用,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。 2、下载数据 2.1、进入TCGA网址,点击 Repository,进入数据存储地。 二、基于UCSC-XENA下载TCGA的RNAseq数据 1、进入UCSC-XENA 注:黄色框框是官网给的如何使用该网址的教程,红色框框是需要点击进入的界面。 注:可以看到在右侧的Active Data Hubs 包括了很多,不仅涵盖了TCGA还包括ICGA,Pan-Cancer Atlas Hub等数据节点。因为是研究TCGA,只需要选中TCGA就可以了。 注:发现该网站已经整理好了各类数据,包括CNV,DNA甲基化等,方便用户下载。接着找到RNAseq数据,注意有两个,一个是exon expression RNAseq,一个是gene expression RNAseq。 注:它的单位是log2(count+1),说明这个网站是对count数进行了这种方式的处理来归一化的,不是FPKM哦。 三、通过cBioportal下载TCGA的RNAseq数据及临床信息 1 进入cBioportal 注:可以看到一共有32个TCGA数据集。 注:可以看到主要是包括了CNV的信息和Matution信息,Mutation 按照突变频率进行了排序,可以看到在肾上腺皮质癌中ERCC2突变频率最高,CNV主要涵盖了两类分别是del和amp。 注:可以看到在右侧的Active Data Hubs 包括了很多,不仅涵盖了TCGA还包括ICGA,Pan-Cancer Atlas Hub等数据节点。因为是研究TCGA,只需选中TCGA就可以了。 注:RNAseq的数据类型有两种,选择一种即可。发现下载的数据不仅包括了RNAseq数据还包括其他各种数据,比如突变数据,450K甲基化数据等,几乎就是把一种疾病的所有类型数据全部给下载了。 四、通过Fire Browse下载TCGA的RNAseq数据 1、进入Fire Browse 注:和Fire Browse非常相近的FireHouse,这个和Firebrowse的关系,就是Fire Browse是FireHouse的浏览器,FireHouse是数据的存储站 2、进入FireHouse 注:先来认识一下FireHouse,主要关注Software和Download 3、点击software,界面如下: 注:这个需要安装python环境下的firehouse库 注:要求安装FirebrowseR这个包 注:看到FireBrowse是不是有一种莫名的熟悉感?红色框框内部便是看到的for ACC,ACC是对肾上腺皮质癌的简写。 10 、看到了有上述5类数据: illuminahiseq_rnaseqv2-RSEM_isoforms_normalized (MD5) 基于RSEM的软件基因的isoforms的归一化之后的表达数据 注:RNAseq数据下载我们主要关注两个文件,分别是illuminahiseq_rnaseqv2-RSEM_genes (MD5),illuminahiseq_rnaseqv2-RSEM_genes_normalized (MD5) 11、分别用Excel打开如下: 注:可以看到,该文件里面包含了raw count文件 注:可以看到,该文件里面包含了归一化之后的count文件 注:可以看到最显著的明显的突变基因列表。 |
|