分享

实战系列(三)模仿4分胃癌发病机制和预后关键基因的文章

 yjt2004us 2019-07-02




本文章18年7月发表于FrontiersinGenetics,当年4分现在3.5分,属于一个可以模仿的范畴,作为经典套路学习很好。

文章基本思路是通过一系列的生物信息分析的方法挖掘胃癌预后相关的潜在标志物,该研究的结果为进一步研究诊断和预后生物标志物以及促进GC的分子靶向治疗提供了一些指导意义。

Step1:数据筛选

通过调研GEO数据库寻找合适研究的样本集:

GSE19826,GSE27342,GSE29272,GSE33335,GSE54129,GSE56807,GSE63089,GSE65801和GSE79973;

筛选标准:(1)他们使用人胃组织样本。

(2)他们包含病例对照组。

(3)它们含有至少十个样品。

选取对应TCGA的胃癌数据:从癌症基因组图谱(TCGA)获得含有375个GC样品和32个匹配的癌旁样品的RNA-Seq数据

数据展示如下:

Step2:差异基因分析及合并

1、使用limma包对每个芯片数据集进行差异分析,选择阈值为|log2FC|≥1,P值<0.05且FDR<0.05。

2、使用RRA(RobustRankAggreg)包对这9套数据集的差异基因进行合并,使用默认参数,共得到411个差异基因,包含234个下调基因和177个上调基因。

3、TCGARNA-Seq数据差异分析,使用R软件包edgR,使用阈值为|log2FC|≥1,P值<0.05并且FDR<0.05,得到2219个下调基因和2404个上调基因。4、与GEO的差异数据集进行合并取交集,共得到268个重叠DEG(149个下调基因和119个上调基因)

Step3:差异基因富集分析

1、使用DAVID做GO富集分析 FDR<0.05

2、使用R软件包clusterProfiler做KEGG富集分析FDR<0.05

3、气泡图对结果进行可视化

Step4:PPI网络互作分析

1、将差异基因丢入到String数据中,选择置信得分大于等于0.4作为阈值,得到差异基因的互作信息,共得到173 nodes and 711 interactions。

2、将互作信息导入到Cytoscope进行网络可视化,统计分析网络的拓扑性质(度和介数中心性),根据网络的度和介数中心性来筛选hub gene,得到10个基因。

3、使用Cytoscope的mcode插件进行网络模块挖掘(使用默认参数),得到三个模块,这三个模块包含了10个hub基因中的九个。

4、对每个模块进行通路富集分析观察这些模块的功能来推测这9个hub 基因的功能


Step5:差异基因预后分析

1、选择TCGA带预后信息的368个样本,匹配差异基因的表达谱进行单因素生存分析,选择阈值0.05,共得到44个预后相关的差异基因。

2、进一步使用多因素回归,对这些显著的基因进行多因素回归分析,得到了9个基因。

Step6:高低风险组的表达差异分析


这篇文章解读相对细致,作为一个标准,如果不能独立完成这样一个分析流程,那么生信能力大约处于刚入门或未进阶的状态,想要独立完成以生物信息分析为主的课题是比较困难的。当然困难归困难,不代表不能做,现在有很多0代码只用网站后者工具进行数据分析的方法。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多