分享

4分文献解读:整合生物信息学鉴定结直肠癌的核心基因和通路

 生物_医药_科研 2019-09-15

这篇文章对于初次接触数据挖掘的同学十分友好,整篇文章思路十分清楚,作者是借助GEO数据集-差异分析-PPI网络-核心节点一个流程实现对数据的挖掘。目前这种纯分析得套路虽然发不了4分,但是以此类简单分析为基础,筛选核心基因后续再用组织样本验证得话还是可以发到不错的分数。因此也具有一定得借鉴意义。

识别差异基因

作者下载了四套GEO数据集GSE28000, GSE21815, GSE44076 和GSE75970,作者分别取差异基因(cancer VS normal),最后四套数据集的差异基因取交集,共获得292个一致的差异基因。Cutoff :p< 0.05 and [logFC]>1 

差异表达基因的GO富集分析

作者利用上述的292个差异基因进行GO富集分析,GO分析分别选择了DAVID和Panther两个在线工具,分别进行了molecular function, biological process 以及cellular component分析,结果如下:

差异表达基因的通路富集分析

作者在进行完GO富集分析之后,便开始通路富集分析,作者并不是简简单单的kegg富集,而是整合了多个数据库的结果,包括KEGG PATHWAY, Reactomen, BioCyc, Panther, NHGRI and Gene Ontology。

PPI网络构建

作者借助STRing数据库,将292个差异基因输入到string数据库中,其中180个节点有相互作用关系,作者借助Cytoscape进行可视化网络关系。

关键模块选取

作者借助Mcode工具(Cytoscape插件),从PPI网络中选取了两个节点度较高的模块,接着分别对两个模块进行富集分析。

利用TCGA验证差异表达基因

作者并不是简单的进行核心节点的差异结果验证,而是将所有的差异基因分为上调和下调,采用TCGA同样进行差异分析,发现将近95.5%的基因出现了重合,说明了结果的可靠性。

至此整篇文章就结束了。

文章思路总结

作者综合了四套GEO数据集进行差异分析,然后取交集,分别进行GO/KEGG分析,接着进行PPI网络的构建,再接着进行模块选取以及TCGA数据库的验证。

OK,这个文章就结束了,这篇文章思路非常清晰,以GEO数据即为切入点来分析,整个流程相当简单。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多