这个搞笑的tcga数据挖掘策略，m6A，居然也被发了几十篇文章

祥强6csdm0n3vs 2020-07-21

展开全文

很久以前总结过TCGA数据挖掘思路，从signature时代，不管是mRNA，lncRNA还是miRNA或者甲基化的signature，到了可变剪切时代，cibersoft时代，ceRNA时代，现在又来了一个m6A。基本上你看到某个策略的时候，那33个癌症，甚至癌症亚型，或者多个癌症合并，都被做完了。

但是其实这个m6A策略是很搞笑的，我以为是TCGA数据库有m6A测序，结果，看了看几个文章从发现，居然仅仅是考虑一下m6A相关基因，RNA的m6A甲基化一共有大三类酶参与：Writers、Erasers和Readers，具体信息需要自行阅读（Roundtree et al (2017) Cell, 169: 1187）综述，里面提到了腺苷酸甲基化和去甲基化的过程：

当从DNA→RNA过程中，腺苷酸在甲基化酶METTL3、METTL14和WTAP等作用下在第六位N发生了甲基化修饰。这类酶我们称之为Writers
甲基化的腺嘌呤可以被读码器（目前发现m6A读码器主要有四个，定位于细胞核内的YTHDC1以及定位在细胞质中的YTHDF1、YTHDF2、YTHDF3、YTHDC2）识别
同时m6A可以被擦除器FTO和ALKBH5这两个去甲基化酶催化去甲基化。

也就是说，这个策略就是仅仅考虑这些基因即可。也就是我一直强调的数据挖掘的核心是缩小目标基因：

各种数据挖掘文章本质上都是要把目标基因集缩小，比如表达量矩阵通常是2万多个蛋白编码基因，不管是表达芯片还是RNA-seq测序的，采用何种程度的差异分析，最后都还有成百上千个目标基因。如果是临床队列，通常是会跟生存分析进行交集，或者多个数据集差异结果的交集，比如：多个数据集整合神器-RobustRankAggreg包，这样的基因集就是100个以内的数量了，但是仍然有缩小的空间，比如lasso等统计学算法，最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略，有点类似于人工选择啦，通常是可以往热点靠，比如肿瘤免疫，相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析，仅仅是拿着几千个免疫相关基因的表达矩阵即可。

乳腺癌的m6A

文章：N6-methyladenosine-related Genomic Targets are Altered in Breast Cancer Tissue and Associated with Poor Survival

链接：https://www.ncbi.nlm./pmc/articles/PMC6775703

Received: 2019.03.19; Accepted: 2019.08.12; Published: 2019.08.29

可以看到，研究者首先把TCGA-BRCA cohort 里面的参与RNA的m6A甲基化的基因分析一波，然后挑选了6个gse数据集验证

The TCGA-BRCA cohort data of 1109 BRC patients and 113 normal patients were downloaded from The Cancer Genome Atlas (TCGA, https://tcga-data.nci./tcga/).
6 independent cohorts, including GSE70947, GSE15852, GSE109169, GSE36295, GSE29044 and GSE24124, were obtained from the Gene Expression Omnibus (GEO https://www.ncbi.nlm./geo/) database.

其中GEO数据库的GSE数据集详情:

数据集列表

首先在 TCGA-BRCA cohort 看参与RNA的m6A甲基化的基因，如下：

多个基因的差异表达情况箱线图展示

我觉得这个图画的很烂，其实可以展现火山图。

再在GEO的多个gse数据集看参与RNA的m6A甲基化的基因的上下调情况，如下：

多个数据集的多个基因差异变化倍数的上下调展示

肺鳞癌的m6A

文章是：Expression and Prognostic Significance of m6A-Related Genes in Lung Adenocarcinoma

也是首先看 TCGA-LUAD ，再看6个gse数据集：

The TCGA-LUAD and corresponding clinical data of 509 LUAD samples and 20 normal samples were downloaded from the Cancer Genome Atlas (TCGA) repository
mRNA expression of 6 LUAD datasets (GSE27262, GSE10072, GSE31210, GSE33532, GSE40791, and GSE43767)

说实话，图表高度一致，我都怀疑是同一个公司提供的服务了，如果去搜同样的关键词，m6A,tcga加上具体的癌症，会发现更多，比如 Expression Status And Prognostic Value Of M6A- associated Genes in Gastric Cancer

然后我仔细看了看这3篇文章，发现是同一个科研团队，看样子我的怀疑错了，并不是公司提供服务，是他们实验室确实有这样的需求，就批量做了这么多如此类似的科研项目。