一篇4分的geo数据挖掘文章究竟是怎么样的

yjt2004us 2019-01-09

展开全文

我们的数据挖掘课程中，有一个课是主讲如何从geo数据库中下载想要的数据，并用R语言进行分析。我们可以得到各种图，如韦恩图、热图、火山图、go和kegg条形图和气泡、蛋白互作图等，我们得到这些数据之后，如何整理一篇文章出来呢，有时候，甚至不需要用所有的结果就可以完成一篇4分的文章，我们来举个例子。

这是“神刊”Scientific Report上面的文章，研究的是非酒精性脂肪性肝病(NAFLD)相关基因以及通路，作者选用了GEO数据库中的三套数据，GSE31803, GSE49541和GSE63067。

文章分别分析了三组GSE中NAFLD与正常肝组织的差异基因，分别得到8503, 1538, 以及94个差异基因。

去除重复基因以及没有确定基因名称的值后，GSE31803和GSE4954取前100个，GSE63067取前93个（本身不足100个），取交集，得到韦恩图。

随后，文章分别对三套数据的差异基因做了GO分析中的生物学过程分析，根据-Log(p-value) 值从小到大来排列，列出前20个，这个值越大代表p Value越小，越显著，个人感觉从长到短排列看起来更舒服，下图是其中一套数据的GO分析中的BP，即生物学过程。

GO分析图怎么做，前面的推文讲到过，可以返回去看一下。

在这三套数据中,分子代谢过程（small molecule metabolic process）为共同富集的生物学过程，文章中还列出了两两共同的生物学过程，这些生物学过程可能在疾病发展过程中起重要作用。

同样的套路，文章分析了KEGG，列出了前20的通路，然后找三组共同的通路，分析的方法与GO几乎一样，DAVID里面可以下载富集的数据，以下是其中一套数据的结果。

最后，文章做了一个最简单的验证，如何验证？猜都能猜到，就是用临床样本做一下定量PCR，文章中选取了15例正常样本和10例脂肪肝样本，对8个至少两两共同的差异基因进行检测，然后与数据库中分析的结果进行比较，列出结果一致的基因，相当于实验与数据挖掘结果相互验证了。

这篇文章简单不简单？确实简单，但也确实发到了4分杂志上。

文章虽简单，至少可以给我们点提示，就是GEO上找到的Series，单一的分析其中一个可能创新性不足，这样我们就可以多找几个数据集，找出差异基因，取交集进行分析，增加文章的创新性和可信度。

好了，就介绍到这里，大家快回去试试吧，下一次介绍一下如何利用GEO2R在GEO里面找差异基因！

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： yjt2004us > 《科研》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

yjt2004us

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换