但是其实这个m6A策略是很搞笑的,我以为是TCGA数据库有m6A测序,结果,看了看几个文章从发现,居然仅仅是考虑一下m6A相关基因,RNA的m6A甲基化一共有大三类酶参与:Writers、Erasers和Readers,具体信息需要自行阅读(Roundtree et al (2017) Cell, 169: 1187)综述,里面提到了 腺苷酸甲基化和去甲基化的过程:
也就是说,这个策略就是仅仅考虑这些基因即可。也就是我一直强调的数据挖掘的核心是缩小目标基因: 各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。 乳腺癌的m6A文章:N6-methyladenosine-related Genomic Targets are Altered in Breast Cancer Tissue and Associated with Poor Survival 链接:https://www.ncbi.nlm./pmc/articles/PMC6775703 Received: 2019.03.19; Accepted: 2019.08.12; Published: 2019.08.29 可以看到,研究者首先把TCGA-BRCA cohort 里面的参与RNA的m6A甲基化的基因分析一波,然后挑选了6个gse数据集验证
其中GEO数据库的GSE数据集详情: 首先在 TCGA-BRCA cohort 看参与RNA的m6A甲基化的基因,如下: 我觉得这个图画的很烂,其实可以展现火山图。 再在GEO的多个gse数据集看参与RNA的m6A甲基化的基因的上下调情况,如下: 肺鳞癌的m6A文章是:Expression and Prognostic Significance of m6A-Related Genes in Lung Adenocarcinoma 也是首先看 TCGA-LUAD ,再看6个gse数据集:
说实话,图表高度一致,我都怀疑是同一个公司提供的服务了,如果去搜同样的关键词,m6A,tcga加上具体的癌症,会发现更多,比如 Expression Status And Prognostic Value Of M6A- associated Genes in Gastric Cancer 然后我仔细看了看这3篇文章,发现是同一个科研团队,看样子我的怀疑错了,并不是公司提供服务,是他们实验室确实有这样的需求,就批量做了这么多如此类似的科研项目。 这些研究都很常规也很简单,不过想复现这些图表,还是需要一些基础知识的,起码是入门级别生信工程师水平,如果你也想学习,可以考虑生信技能树官方举办的学习班:
如果你时间宽裕,也可以考虑过来我们的生信技能树做知识整理,见:生信技能树知识整理实习生招募,长期招募,大家耳熟能详的策略有;
(mRNA,lncRNA,miRNA,甲基化,蛋白)均可走上述流程,也就是说33种癌症乘以5种亚型,乘以5种分子,乘以15个策略就已经是过万篇数据挖掘课题了,而且你仔细搜索一下就发现,真的是已经有了过万篇数据挖掘文章了哦! 其它策略如果你的癌症被别人做了,还可以考虑亚型,或者说考虑两个相近的癌症合并分析,比如lUAD和LUSC,GBM和LGG,还有,COAD和READ等等合并。 比如下面这个文章,居然还列出来了思维导图,有点意思: |
|
来自: 祥强6csdm0n3vs > 《生信类》