分享

这个搞笑的tcga数据挖掘策略,m6A,居然也被发了几十篇文章

 祥强6csdm0n3vs 2020-07-21

很久以前总结过TCGA数据挖掘思路,从signature时代,不管是mRNA,lncRNA还是miRNA或者甲基化的signature,到了可变剪切时代,cibersoft时代,ceRNA时代,现在又来了一个m6A。基本上你看到某个策略的时候,那33个癌症,甚至癌症亚型,或者多个癌症合并,都被做完了

但是其实这个m6A策略是很搞笑的,我以为是TCGA数据库有m6A测序,结果,看了看几个文章从发现,居然仅仅是考虑一下m6A相关基因,RNA的m6A甲基化一共有大三类酶参与:Writers、Erasers和Readers,具体信息需要自行阅读(Roundtree et al (2017) Cell, 169: 1187)综述,里面提到了 腺苷酸甲基化和去甲基化的过程:

  • 当从DNA→RNA过程中,腺苷酸在甲基化酶METTL3、METTL14和WTAP等作用下在第六位N发生了甲基化修饰。这类酶我们称之为Writers
  • 甲基化的腺嘌呤可以被读码器(目前发现m6A读码器主要有四个,定位于细胞核内的YTHDC1以及定位在细胞质中的YTHDF1、YTHDF2、YTHDF3、YTHDC2)识别
  • 同时m6A可以被擦除器FTO和ALKBH5这两个去甲基化酶催化去甲基化。

也就是说,这个策略就是仅仅考虑这些基因即可。也就是我一直强调的数据挖掘的核心是缩小目标基因

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可

乳腺癌的m6A

文章:N6-methyladenosine-related Genomic Targets are Altered in Breast Cancer Tissue and Associated with Poor Survival

链接:https://www.ncbi.nlm./pmc/articles/PMC6775703

Received: 2019.03.19; Accepted: 2019.08.12; Published: 2019.08.29

可以看到,研究者首先把TCGA-BRCA cohort 里面的参与RNA的m6A甲基化的基因分析一波,然后挑选了6个gse数据集验证

  • The TCGA-BRCA cohort data of 1109 BRC patients and 113 normal patients were downloaded from The Cancer Genome Atlas (TCGA, https://tcga-data.nci./tcga/).
  • 6 independent cohorts, including GSE70947, GSE15852, GSE109169, GSE36295, GSE29044 and GSE24124, were obtained from the Gene Expression Omnibus (GEO https://www.ncbi.nlm./geo/) database.

其中GEO数据库的GSE数据集详情:

数据集列表

首先在 TCGA-BRCA cohort 看参与RNA的m6A甲基化的基因,如下:

多个基因的差异表达情况箱线图展示

我觉得这个图画的很烂,其实可以展现火山图。

再在GEO的多个gse数据集看参与RNA的m6A甲基化的基因的上下调情况,如下:

多个数据集的多个基因差异变化倍数的上下调展示

肺鳞癌的m6A

文章是:Expression and Prognostic Significance of m6A-Related Genes in Lung Adenocarcinoma

也是首先看 TCGA-LUAD ,再看6个gse数据集:

  • The TCGA-LUAD and corresponding clinical data of 509 LUAD samples and 20 normal samples were downloaded from the Cancer Genome Atlas (TCGA) repository

  • mRNA expression of 6 LUAD datasets (GSE27262, GSE10072, GSE31210, GSE33532, GSE40791, and GSE43767)

说实话,图表高度一致,我都怀疑是同一个公司提供的服务了,如果去搜同样的关键词,m6A,tcga加上具体的癌症,会发现更多,比如 Expression Status And Prognostic Value Of M6A- associated Genes in Gastric Cancer

然后我仔细看了看这3篇文章,发现是同一个科研团队,看样子我的怀疑错了,并不是公司提供服务,是他们实验室确实有这样的需求,就批量做了这么多如此类似的科研项目。

多个基因的差异表达情况箱线图展示,以及多个数据集的多个基因差异变化倍数的上下调展示

这些研究都很常规也很简单,不过想复现这些图表,还是需要一些基础知识的,起码是入门级别生信工程师水平,如果你也想学习,可以考虑生信技能树官方举办的学习班:

如果你时间宽裕,也可以考虑过来我们的生信技能树做知识整理,见:生信技能树知识整理实习生招募,长期招募,大家耳熟能详的策略有;

  • 差异分析+PPI网络+hub基因
  • WGCNA+hub基因
  • 诊断模型构建
  • 预后模型构建
  • 肿瘤免疫,CIBERSOFT计算的LM22比例分组,以及ESTIMATE算法等等
  • m6A等生物学功能基因集
  • 药敏信息

(mRNA,lncRNA,miRNA,甲基化,蛋白)均可走上述流程,也就是说33种癌症乘以5种亚型,乘以5种分子,乘以15个策略就已经是过万篇数据挖掘课题了,而且你仔细搜索一下就发现,真的是已经有了过万篇数据挖掘文章了哦!

其它策略

如果你的癌症被别人做了,还可以考虑亚型,或者说考虑两个相近的癌症合并分析,比如lUAD和LUSC,GBM和LGG,还有,COAD和READ等等合并。

比如下面这个文章,居然还列出来了思维导图,有点意思:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多