分享

一篇4分的geo数据挖掘文章究竟是怎么样的

 yjt2004us 2019-01-09

我们的数据挖掘课程中,有一个课是主讲如何从geo数据库中下载想要的数据,并用R语言进行分析。我们可以得到各种图,如韦恩图、热图、火山图、go和kegg条形图和气泡、蛋白互作图等,我们得到这些数据之后,如何整理一篇文章出来呢,有时候,甚至不需要用所有的结果就可以完成一篇4分的文章,我们来举个例子。

这是“神刊”Scientific Report上面的文章,研究的是非酒精性脂肪性肝病(NAFLD)相关基因以及通路,作者选用了GEO数据库中的三套数据,GSE31803, GSE49541和GSE63067。

文章分别分析了三组GSE中NAFLD与正常肝组织的差异基因,分别得到8503, 1538, 以及94个差异基因。

去除重复基因以及没有确定基因名称的值后,GSE31803和GSE4954取前100个,GSE63067取前93个(本身不足100个),取交集,得到韦恩图。

 

随后,文章分别对三套数据的差异基因做了GO分析中的生物学过程分析,根据-Log(p-value) 值从小到大来排列,列出前20个,这个值越大代表p Value越小,越显著,个人感觉从长到短排列看起来更舒服,下图是其中一套数据的GO分析中的BP,即生物学过程。

GO分析图怎么做,前面的推文讲到过,可以返回去看一下。

在这三套数据中,分子代谢过程(small molecule metabolic process)为共同富集的生物学过程,文章中还列出了两两共同的生物学过程,这些生物学过程可能在疾病发展过程中起重要作用。

同样的套路,文章分析了KEGG,列出了前20的通路,然后找三组共同的通路,分析的方法与GO几乎一样,DAVID里面可以下载富集的数据,以下是其中一套数据的结果。

最后,文章做了一个最简单的验证,如何验证?猜都能猜到,就是用临床样本做一下定量PCR,文章中选取了15例正常样本和10例脂肪肝样本,对8个至少两两共同的差异基因进行检测,然后与数据库中分析的结果进行比较,列出结果一致的基因,相当于实验与数据挖掘结果相互验证了。

这篇文章简单不简单?确实简单,但也确实发到了4分杂志上。

文章虽简单,至少可以给我们点提示,就是GEO上找到的Series,单一的分析其中一个可能创新性不足,这样我们就可以多找几个数据集,找出差异基因,取交集进行分析,增加文章的创新性和可信度。

好了,就介绍到这里,大家快回去试试吧,下一次介绍一下如何利用GEO2R在GEO里面找差异基因!


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多