这篇文章对于初次接触数据挖掘的同学十分友好,整篇文章思路十分清楚,作者是借助GEO数据集-差异分析-PPI网络-核心节点一个流程实现对数据的挖掘。目前这种纯分析得套路虽然发不了4分,但是以此类简单分析为基础,筛选核心基因后续再用组织样本验证得话还是可以发到不错的分数。因此也具有一定得借鉴意义。 一 识别差异基因 作者下载了四套GEO数据集GSE28000, GSE21815, GSE44076 和GSE75970,作者分别取差异基因(cancer VS normal),最后四套数据集的差异基因取交集,共获得292个一致的差异基因。Cutoff :p< 0.05 and [logFC]>1 二 差异表达基因的GO富集分析 作者利用上述的292个差异基因进行GO富集分析,GO分析分别选择了DAVID和Panther两个在线工具,分别进行了molecular function, biological process 以及cellular component分析,结果如下: 三 差异表达基因的通路富集分析 作者在进行完GO富集分析之后,便开始通路富集分析,作者并不是简简单单的kegg富集,而是整合了多个数据库的结果,包括KEGG PATHWAY, Reactomen, BioCyc, Panther, NHGRI and Gene Ontology。 四 PPI网络构建 作者借助STRing数据库,将292个差异基因输入到string数据库中,其中180个节点有相互作用关系,作者借助Cytoscape进行可视化网络关系。 五 关键模块选取 作者借助Mcode工具(Cytoscape插件),从PPI网络中选取了两个节点度较高的模块,接着分别对两个模块进行富集分析。 六 利用TCGA验证差异表达基因 作者并不是简单的进行核心节点的差异结果验证,而是将所有的差异基因分为上调和下调,采用TCGA同样进行差异分析,发现将近95.5%的基因出现了重合,说明了结果的可靠性。 文章思路总结 作者综合了四套GEO数据集进行差异分析,然后取交集,分别进行GO/KEGG分析,接着进行PPI网络的构建,再接着进行模块选取以及TCGA数据库的验证。 OK,这个文章就结束了,这篇文章思路非常清晰,以GEO数据即为切入点来分析,整个流程相当简单。 |
|