分享

TCGA数据库挖掘-内含流程图-2分以上套路

 生物_医药_科研 2019-04-24



TCGA数据库想必大家都不陌生,它以丰富的数据类型、大规模的样本量和完备的临床信息著称,对肿瘤研究者来讲是一座宝贵的矿藏。数据类型主要包括mRNA芯片/测序、miRNA测序、甲基化芯片、CNV等多种组学,疾病包括39种常见癌症。

本套路借助COX回归模型,结合TCGA的甲基化和mRNA测序数据,从海量的数据中筛选出影响预后的甲基化位点/基因集合,通过风险评分区分高/低风险患者,具有很高的科研和临床价值。


预后相关的甲基化与表达谱整合的数据分析思路

流程图如下:

具体步骤简要介绍:

  1. 甲基化数据差异分析

  2. 各差异甲基化位点的生存分析

  3. 差异甲基化位点-mRNA相关性分析

  4. mRNA表达水平的生存分析

通过以上步骤筛选得到关键研究因子(文献调研),作为进一步深度研究分析的对象。

示例图 关键甲基化水平beta值分布图

5.根据上一步所选的甲基化位点,将患者分为高/低甲基化组,筛选组间差异基因。

6.利用Cox模型和ROC曲线构建预后生存相关的signature基因集,并计算每个患者的Risk score。

示例图 K-M曲线和ROC曲线

7.利用验证数据集进行Risk score打分系统的验证。

示例图 Risk Score打分系统结果

8.与Risk Score正/负相关的基因集的GO和通路分析。

9.实验验证。

这个可能有点难度,大家耐心看看。看你能不能挑战下自己,也欢迎大家随时加宾利哥哥微信切磋哦。

更多生物信息学的精彩内容和课程

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多