分享

一小时掌握TCGA组学数据挖掘

 生物_医药_科研 2018-12-07


NGS技术无疑已经成为目前肿瘤研究的重要手段,无论国内还是国外均在开展大队列癌症研究项目。这些项目通常除了获得患者的肿瘤组织外,还会收集患者配对的正常组织、临床信息、随访记录等信息。TCGA 作为国际上重要的癌症研究项目,已经收集了来自11,000个患者,涵盖33种癌症的多组学数据,包括因组学、转录组学、拷贝数、甲基化表观修饰、蛋白质组学、临床指标信息以及随访的生存数据,总数据存储量达到了2.5Peta Bytes。严格的样本录入要求和严谨的实验过程,为全球科学家提供了宝贵的癌症大队列研究数据。



然而,面对如此海量的数据,怎样才能快速的进行数据的挖掘和探索?OmicSoft 开发的Land技术将组学数据以OmicSoft File System (OFS)的格式进行存储,该技术对数据集建立基因、样本、临床信息等多层次的索引,实现信息的快速检索和比较。目前OmicSoft OncoLand中已经整合来自TCGA、ICGC、GEO、SRA、BLUEPRINT等大型癌症项目 >70,000个样本、~350种癌症类型、~20种组学数据类型、1000种临床指标的数据。


今天小编将一步步教大家如何用OmicSoft OncoLand进行TCGA数据的挖掘。这里我们以TCGA 2017年发表在Nature上一篇探索食管癌(ESCA)不同亚型分子机制的文章为例

  • ESCA根据组织学特征可以分为两个亚型:鳞状细胞癌(ESCC)和腺癌(EAC)

  • ESCC 发生于食管上端,与吸烟和酗酒相关

  • EAC与胃相邻,与肥胖和胃反流相关


小编基于TCGA数据主要回答两个问题:

1. 怎样利用TCGA数据挖掘 ESCC 和 EAC 的不同分子特征?

2. ESCC 发生于食管上端是否与头颈癌(HNSC)相关? EAC与胃部相连是否与胃癌(STAD)相关?



第一步:筛选 ESCA 不同亚型样本

从左上角的‘Select Land’中选择 TCGA_B37 即可切换到TCGA数据集;基于左侧过滤条件 ’Tumor Type’ 筛选 ESCA;在右侧选择‘Grouping – Histological Type’则可以获得ESCC和EAC对应的样本。



第二步:临床指标关联分析和生存分析

在左侧的‘Select View’中选择‘Clinical Significance’-> ‘Group Association’,则可以查看ESCC和EAC与不同临床指标的相关性,从下图可以直观看到Weight在ESCC和EAC中具有显著性的差异(p-value =2.16e-016)。同样也可以从‘Select View’中选择‘other views’-> ‘Survival Data’ 构建ESCC和EAC生存曲线。



第三步:创建差异表达基因 Heatmap

选择‘Analytics’-> ‘IntegrationAnalysis’ -> ‘Sample Grouping=> Expression’ 则可以计算ESCC和EAC两组之间差异表达基因并构建heatmap。从heatmap可以清楚的看出两组之间差异表达基因可以显著的将ESCC(蓝色bar)和EAC(绿色bar)进行区分。



第四步:ESCA/EAC与HNSC和STAD比较

在右侧’Tumor Type’中添加’HNSC(头颈部癌)’ ,从下图可以看出EAC(蓝色bar)与ESCC(绿色bar)和HNSC(黄色bar)可以明显的分开,而 ESCC与HNSC分布在一起。同样在右侧’Tumor Type’中添加’STAD(胃癌)’,可以发现EAC(蓝色bar)与STAD(黄色bar)分布在一起,而 ESCC(绿色bar)可以明显的与EAC和STAD分开。



最后一步:结果查看

从左侧的’select view’选择’RNA-seq Quantification’-> ‘Gene FPKM’,则可以查看每个差异表达基因在ESCC、EAC、HNSC和STAD中的表达值分布。从下图可以发现,ESCC和HNSC的基因表达值分布一致,而EAC和STAD的基因表达值分布一致。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多