肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。 TCGA中数据类型主要有以下几种:
其中mRNA-Seq,miRNA-Seq以及Methylation Array被广泛使用 mRNA-Seq数据分为3种:
前两个比较好理解,第三个跟第二个的区别在于不同的标准化方法,公式可参考https://docs.gdc./Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/ TCGA数据等级:
总而言之,前面2个层级的数据一般是拿不到的,需要权限,一般也只有国外的PI才能申请到(听说的),我们一般拿到的open数据就属于那种已经标准化后的数据 TCGA样本分类: 除了要知道数据等级外,我们还需要了解TCGA的样本分类,比如哪个是正常样本,哪个是肿瘤样本 一般我们可以看到样品名称如:TCGA-19-2619-10A,我们需要关注的是最后一位10A,一般来说01代表癌症样本,11代表癌旁样本。其实从01-09是tumor,癌症样本;10-29是normal,癌旁样本。只是其中分的比较细 具体可参考官网说明:https://wiki.nci./display/TCGA/TCGA+barcode TCGA数据下载: 官网有自带的下载方式:选中数据 -> 加入购入车 -> download -> cart -> 顺便也下载metadata 还有不少推荐使用Firehose:http://gdac./ -> data-browse -> 然后按照自己需求下载样本数据即可 第一次接触TCGA数据库,初步整理一下,后续根据文献实践再总结分析过程了 |
|
来自: 小梦想在努力 > 《数据库/分析/可视化》