分享

TCGA数据库简介

 生信修炼手册 2019-12-24

TCGA全称如下

The Cancer Genome Atlas

是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和  National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。

目前共收录了33种癌症类型,超过了2个PB的数据,该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。该数据库的网址如下

https://www./about-nci/organization/ccg/research/structural-genomics/tcga

数据类型包括以下几种

  1. RNA sequencing

  2. MicroRNA sequencing

  3. DNA sequencing

  4. SNP-based platforms

  5. Array-based DNA methylation sequencing

  6. Reverse-phase array(RPPA)

涵盖了基因组,转录组,表观遗传,蛋白组等各个组学数据,提供了一个全方位,多维度的数据。 官方提供了对应的下载工具Genomic Data Commons Datga Portal,  简称GDC, 网址如下

https://portal.gdc./

同时还有很多的第三方工具,比如

  1. cBioPortal

  2. ForeBrowse

  3. UCSC  Xena

官方的工具主要功能是查看和下载数据,只有非常简单的分析功能,而第三方工具则侧重于基于TCGA的数据进行分析。目前针对TCGA的数据,常用的分析包括以下几种

  1. 生存分析

  2. 肿瘤患者和正常人的差异分析

  3. 组学数据和临床数据的相关性

基于TCGA等公共数据库的挖掘是目前研究的一个热点,在文章中也经常会使用TCGA的数据来和自己实际的数据相互映证。了解和掌握TCGA数据的用法势在必行,在后续文章中会详细介绍。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多