我们的数据挖掘课程中,有一个课是主讲如何从geo数据库中下载想要的数据,并用R语言进行分析。我们可以得到各种图,如韦恩图、热图、火山图、go和kegg条形图和气泡、蛋白互作图等,我们得到这些数据之后,如何整理一篇文章出来呢,有时候,甚至不需要用所有的结果就可以完成一篇4分的文章,我们来举个例子。 这是“神刊”Scientific Report上面的文章,研究的是非酒精性脂肪性肝病(NAFLD)相关基因以及通路,作者选用了GEO数据库中的三套数据,GSE31803, GSE49541和GSE63067。 文章分别分析了三组GSE中NAFLD与正常肝组织的差异基因,分别得到8503, 1538, 以及94个差异基因。 去除重复基因以及没有确定基因名称的值后,GSE31803和GSE4954取前100个,GSE63067取前93个(本身不足100个),取交集,得到韦恩图。
随后,文章分别对三套数据的差异基因做了GO分析中的生物学过程分析,根据-Log(p-value) 值从小到大来排列,列出前20个,这个值越大代表p Value越小,越显著,个人感觉从长到短排列看起来更舒服,下图是其中一套数据的GO分析中的BP,即生物学过程。 GO分析图怎么做,前面的推文讲到过,可以返回去看一下。 在这三套数据中,分子代谢过程(small molecule metabolic process)为共同富集的生物学过程,文章中还列出了两两共同的生物学过程,这些生物学过程可能在疾病发展过程中起重要作用。 同样的套路,文章分析了KEGG,列出了前20的通路,然后找三组共同的通路,分析的方法与GO几乎一样,DAVID里面可以下载富集的数据,以下是其中一套数据的结果。 最后,文章做了一个最简单的验证,如何验证?猜都能猜到,就是用临床样本做一下定量PCR,文章中选取了15例正常样本和10例脂肪肝样本,对8个至少两两共同的差异基因进行检测,然后与数据库中分析的结果进行比较,列出结果一致的基因,相当于实验与数据挖掘结果相互验证了。 这篇文章简单不简单?确实简单,但也确实发到了4分杂志上。 文章虽简单,至少可以给我们点提示,就是GEO上找到的Series,单一的分析其中一个可能创新性不足,这样我们就可以多找几个数据集,找出差异基因,取交集进行分析,增加文章的创新性和可信度。 好了,就介绍到这里,大家快回去试试吧,下一次介绍一下如何利用GEO2R在GEO里面找差异基因! |
|