分享

The cancer genome atlas(TCGA)数据库的使用介绍

 老学究ev2fmzu9 2018-08-19

转自https://www./database/201806/757627.html

The cancer genome atlas(TCGA)数据库储存20多种癌症的基因组数据,作为生信喵少不了要下载上面的数据来分析。写篇文章介绍一下,也加深自己的印象。

TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,miRNA表达,甲基化数据等

这些数据可分为三个级别:

level-1: 原始的测序数据(fasta,fastq等)

level-2:比对好的bam文件

level-3:为经过处理及标准化的数据

(其中level1/2为controlled-access,level-3有部分是controlled-access,这一类型的需要向TCGA申请使用权限)

level-1/2 比较糙,文件较大,若要下载需要使用官方提供的小工具:GDC Data Transfer Tool, 需要自己重新比对来call mutation, 或者提取count data做差异表达分析(懒人表示不怎么用)

最常用的为level3数据,文件较小,直接在网页上下载就可以。

目前主要有两个网站可以下载TCGA level-3的数据:

TCGA官网的data-portal: portal.gdc.cancer.gov

优点:数据最全,更新最快

缺点:每个样本的数据都单独储存在一个文件中,如果要下载RNA表达量数据的话,可能同一种癌症需要下载好几百个文件,并且需要排队下载,有时候很慢很慢很慢

Firehose服务器:gdac.broadinstitute.org

优点:这里的数据也来源于 portal.gdc.cancer.gov,经过了简单的合并,将每种癌症相同类型的数据合并到了一个文件中(例如443个胃癌样本的RNA表达量数据都合并到了一个文件中,非常适合用R进行后续的分析)

level-3的数据是仍需要一定的分析能力来提取感兴趣的信息,

如果你仅仅需要看感兴趣的基因在某种癌症中的突变谱,表达量,或者甲基化情况,那么以下三个在线可视化网站可以说是非常亲民了:

c-Bioportal: www.cbioportal.org

整合和简化了包括TCGA,ICGC以及GEO等多个癌症基因组数据库的内容,提供友好可视化的界面,可供下载。

主要展示基因的somatic 突变谱,拷贝数变化,mRNA&miRNA表达量变化,DNA甲基化以及蛋白质表达的情况,并结合患者的临床资料,展示了KM生存曲线。

OncoLnc: www.oncolnc.org

这是一个整合了TCGA的各种RNA数据和患者临床数据,提供生存分析的网站,灰常简单好用。

MEXPRESS:mexpress.be/about

整合了TCGA中的DNA甲基化,表达量及临床数据,主要用来探索甲基化,基因表达和临床表型之间的关联,界面也很友好。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多