分享

零代码下载TCGA数据库数据,超详细步骤解密!

 医学院的石头 2019-08-18

ZSCI

TCGA数据库目前是科研中最常用的数据库之一,其中储存着多种疾病的各组学的数据,借助该数据库,帮助了很多研究生们发表了自己的文章,达到了毕业条件。

但是,如果是刚入门的新手怎么办?不用担心,学习下面内容,完成TCGA数据库的认识与下载,开启TCGA数据库的大门。该内容主要从四个数据库讲述一下TCGA数据库中癌症的RNAseq数据下载。(不涉及到代码)

一、基于TCGA官网下载RNAseq数据

1、 TCGA数据库简介

TCGA数据库全称为The Cancer Genome Atlas,主要储存关于各类肿瘤的一个基本信息,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等信息,它是目前为止可以获得的公开数据库里面数据相对全面的一个,在各个领域得到了广泛的应用,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。

2、下载数据

2.1、进入TCGA网址,点击 Repository,进入数据存储地。

网址:https://portal.gdc./

2.2、点击 Case,选择疾病类型,比如选择喉癌(Larynx),在前面打钩即可。

2.3、接着点击 File,选择需要下载文件的数据类型,因为需要下载的是RNAseq数据,所以在Transcriptome Profiling前面打钩。

2.4、在Data Type选择Gene Expression Quantification,在Experimental Strategy上由于只有一个选项,所以不用选择,主要看到有三种类型,分别是counts,FPKM和FPKM-UQ,分别表示counts数和两种归一化后的值,推荐下载counts数据。

2.5、点击counts之后,可以看到每一步操作都会记录在里面,也可以看到数据大小是31兆。

2.6、点击Add All Files to Cart,然后就会看到箭头所指的地方,变为相应的样本数,接着点击cart,如下:

2.7、点击download,下载cart即可。

二、基于UCSC-XENA下载TCGA的RNAseq数据

1、进入UCSC-XENA

网站:https://xena./

注:黄色框框是官网给的如何使用该网址的教程,红色框框是需要点击进入的界面。

2、点击launch Xena,出现下面的界面,那数据藏在哪里了呢?

3、点击DATA Sets 进入数据存储站。

注:可以看到在右侧的Active Data Hubs 包括了很多,不仅涵盖了TCGA还包括ICGA,Pan-Cancer Atlas Hub等数据节点。因为是研究TCGA,只需要选中TCGA就可以了。

4、选中TCGA,进入TCGA数据站,其包含的数据主要是下面38个。

5、随便选择一个癌症,比如选择第一个AML,点击进去,出现下面的界面。

注:发现该网站已经整理好了各类数据,包括CNV,DNA甲基化等,方便用户下载。接着找到RNAseq数据,注意有两个,一个是exon expression RNAseq,一个是gene expression RNAseq。

6、选择gene expression RNAseq,点击带有*号的数据,进入。

7、点击之后,进入下面的界面,点击红色框内链接下载数据。

注:它的单位是log2(count+1),说明这个网站是对count数进行了这种方式的处理来归一化的,不是FPKM哦。

三、通过cBioportal下载TCGA的RNAseq数据及临床信息

1 进入cBioportal

网站:http://www./index.do

2、先点击Query,进入该界面。

3、点击TCGA provisional,进入TCGA数据站,会出现下面的界面。

注:可以看到一共有32个TCGA数据集。

4、点击第一个肾上腺皮质癌,点击进去, 点击view summary

5、出现下面的界面:

注:可以看到主要是包括了CNV的信息和Matution信息,Mutation 按照突变频率进行了排序,可以看到在肾上腺皮质癌中ERCC2突变频率最高,CNV主要涵盖了两类分别是del和amp。

6、点击Clinical Data 进入该疾病的临床数据存储站,点击下载按钮,便可下载该数据。

注:可以看到在右侧的Active Data Hubs 包括了很多,不仅涵盖了TCGA还包括ICGA,Pan-Cancer Atlas Hub等数据节点。因为是研究TCGA,只需选中TCGA就可以了。

7、前面说了这麽多,还是没有讲到TCGA的RNAseq数据的下载,那来看一下怎么下载,首先点击data sets,进入下面的界面。

8、接着找到Adrenocortical Carcinoma (TCGA, Provisional),进行数据下载。

9、下载之后的数据如下,是一个压缩包,继续解压,发现包含的数据,很多,真的是一次下载多次使用。

注:RNAseq的数据类型有两种,选择一种即可。发现下载的数据不仅包括了RNAseq数据还包括其他各种数据,比如突变数据,450K甲基化数据等,几乎就是把一种疾病的所有类型数据全部给下载了。

10、还可以下载关键通路上的基因表达信息,如下1-7个步骤,可以下载AR信号通路上10个基因的表达信息,选中Transpose data matrix, 便可使得下载的数据为表达矩阵格式:

11 、结果文件如下,行是样本名,列是基因名:

四、通过Fire Browse下载TCGA的RNAseq数据

1、进入Fire Browse

网站:http:///

注:和Fire Browse非常相近的FireHouse,这个和Firebrowse的关系,就是Fire Browse是FireHouse的浏览器,FireHouse是数据的存储站

2、进入FireHouse

网站:https://gdac./

注:先来认识一下FireHouse,主要关注Software和Download

3、点击software,界面如下:

4、发现其提供了基于python和R的数据处理方式,比如点开python,如下:

注:这个需要安装python环境下的firehouse库

接着点击R环境,如下:

注:要求安装FirebrowseR这个包

6、接着点击download,发现它提供了一个数据下载工具firehose_get工具,支持数据下载,并且提供了详细的软件使用说明。

7、用软件这么复杂的操作?那如何通过鼠标点击实现下载呢?首先进入FireHouse主界面,如下:

8、点击第一个Data 下面的Browse,便进入肾上腺皮质癌的数据展示界面,会出现下面的界面。

注:看到FireBrowse是不是有一种莫名的熟悉感?红色框框内部便是看到的for ACC,ACC是对肾上腺皮质癌的简写。

9、点击mRNAseq

10 、看到了有上述5类数据:

illuminahiseq_rnaseqv2-RSEM_isoforms_normalized (MD5) 基于RSEM的软件基因的isoforms的归一化之后的表达数据

illuminahiseq_rnaseqv2-exon_quantification (MD5) 基于RSEM的软件外显子定量的表达数据
illuminahiseq_rnaseqv2-RSEM_genes (MD5) 基于RSEM的软件基因的表达数据
illuminahiseq_rnaseqv2-RSEM_genes_normalized (MD5) 基于RSEM的软件基因的归一化之后的表达数据
mRNAseq_Preprocess (MD5) 基于RSEM的软件处理过程
illuminahiseq_rnaseqv2-RSEM_isoforms (MD5) 基于RSEM的软件的isoforms的定量数据
illuminahiseq_rnaseqv2-junction_quantification (MD5) 基于RSEM的软件融合基因定量数据

注:RNAseq数据下载我们主要关注两个文件,分别是illuminahiseq_rnaseqv2-RSEM_genes (MD5),illuminahiseq_rnaseqv2-RSEM_genes_normalized (MD5)

11、分别用Excel打开如下:

illuminahiseq_rnaseqv2-RSEM_genes (MD5)

注:可以看到,该文件里面包含了raw count文件

illuminahiseq_rnaseqv2-RSEM_genes_normalized (MD5)

注:可以看到,该文件里面包含了归一化之后的count文件

12、数据下载好之后,点击Analysis

如下:

注:可以看到最显著的明显的突变基因列表。

除此之外,还可以ACC的CNL的信息,如下:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多