大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我! title:Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap 使用g:Profiler,GSEA,Cytoscape和EnrichmentMap对组学数据进行通路富集分析和可视化 这个文章发表在nature protocols。在生信星球公众号聊天窗口回复“121”可获取文献pdf。 对文章进行了简单理解和翻译,由于我是跨专业,没有什么背景知识积累,有不准确的地方欢迎批评指正,目前只完成了这一部分,未完待续。 摘要通路富集分析有助于研究人员获得从基因组规模(组学)实验产生的基因列表的机制洞察。该方法鉴定的基因列表中富含的生物通路比偶然预期的更多。我们解释了通路富集分析的程序,并提供了一个实用的逐步指导,以帮助解释由RNA-seq和基因组测序实验产生的基因列表。该方案包括三个主要步骤:从组学数据定义基因列表,确定统计学上富集的通路,以及结果的可视化和解释。我们描述了如何将该方案与差异表达基因和突变癌基因的已发表实例一起使用; 但是,这些原则可以应用于各种类型的组学数据。该流程描述了创新型可视化技术,提供了全面的背景和故障排除指南,并使用免费提供和经常更新的软件,包括g:Profiler,Gene Set Enrichment Analysis(GSEA),Cytoscape和EnrichmentMap。完整的流程可在约4.5小时内完成,设计用于没有事先生物信息学培训的生物学家。 Introduction现在,生物样品中DNA,RNA和蛋白质的全面定量1⃣已成为常规。由此产生的数据是呈指数式增长,他们的分析有助于研究人员发现新的生物学功能,基因型-表型关系和疾病机理1,2。然而,对这些数据的分析和解释是许多研究人员面临的主要挑战。分析经常导致需要不切实际的大量手工文献搜索解释的长基因列表。解决该问题的标准方法是通路富集分析,其将大基因列表概括为更容易解释的通路的较小列表。通过几个常见的统计检验,考虑实验中检测到的基因数量,相对排名以及注释到通路的基因数量,对实验基因列表中相对于偶然预期的过度表达进行统计检验。例如,含有40%细胞周期基因的实验数据令人惊讶地富集,因为只有8%的人类蛋白质编码基因参与了这一过程。 在最近的一个例子中,我们使用通路富集分析来帮助识别多梳抑制复合物(PRC2)的组蛋白和DNA甲基化作为室管膜瘤的第一个合理治疗靶点,室管膜瘤是最常见的儿童脑癌之一3。该通路可通过可用的药物如5-氮杂胞苷来靶向,其在患有终末病的患者中以富有同情心的方式使用并且停止快速转移性肿瘤生长3。在另一个例子中,我们分析了自闭症罕见的拷贝数变异(CNV的),并确定受基因缺失影响的重要通路,而通过对单个基因或基因座的病例对照关联试验,几乎没有发现显著的影响(4),5。这些实例说明了使用通路富集分析可以实现的生物学机制的有用见解。 Development of the protocol该流程涵盖了源自基因组规模(组学)技术的大基因列表的通路富集分析。该流程适用于对解释其组学数据感兴趣的实验生物学家。它只需要一个学习和使用“单击”计算机软件的能力,尽管高级用户可以从我们提供的补充流程自动分析脚本中获益1 - 4。我们分析先前公布的人基因的表达和体细胞突变的数据作为实例6,7,8; 然而,我们的概念框架适用于分析来自大规模数据的任何生物的基因或生物分子列表,包括蛋白质组学,基因组学,表观基因组学和基因调控研究。我们广泛使用的通路富集分析了许多项目,并已评估了许多可用的工具9,10,11,12。我们在这里介绍的软件包因其易用性,免费访问,高级功能,大量文档和最新数据库而被选中,它们是我们在研究中每天使用的软件包,并向合作者和学生推荐。此外,我们还向这些工具的开发人员提供了反馈,使他们能够实现我们在已发布分析中所需的功能。这些工具是g:Profiler 13,GSEA 14,Cytoscape 15和EnrichmentMap 16,所有这些都可以在线免费获得:
Overview of the procedure本节概述了通路富集分析的主要阶段。下面的过程中提供了详细的逐步流程。通路富集分析涉及三个主要阶段(图1 ;参见框1的基本定义)。
图1:流程概述。 fig1|来自不同组学数据的基因列表经历通路富集分析,使用g:Profiler或GSEA,以鉴定在实验中富集的通路。使用其EnrichmentMap,AutoAnnotate,WordCloud和clusterMaker2应用程序在Cytoscape中可视化和解释通路富集分析结果。流程概述显示在左侧,从基因列表输入开始,每个阶段的示例输出显示在右侧。 Box 1 | DefinitionsPathway。共同实现生物过程的多个基因。 Gene set。一组相关的基因。“通路基因集”包括通路中的所有基因。基因组可以基于基因之间的各种关系,例如细胞定位(例如,核基因)或酶功能(例如,蛋白激酶)。蛋白质相互作用等细节不包括在内。 Gene list of interest。来自组学实验的基因列表,其输入到通路富集分析中。 Ranked gene list。在许多组学数据(例如,来自用于基因表达的RNA-seq的数据)中,可以根据一些分数(例如,差异表达水平)对基因进行分级,以提供用于通路富集分析的更多信息。富集在排序列表顶部的基因的通路得分高于如果通路基因随机分散在排序列表中的情况。 Pathway enrichment analysis。一种统计技术,用于鉴定在基因列表或排序的目标基因列表中显着表示的通路。 Multiple testing correction。可以单独测试数以千计的通路进行富集,这可能导致显着的富集P值单独出现。多重检测校正是一种统计技术,用于校正个体富集测试中的P值以解决该问题并减少假阳性富集的机会(方框3)。 Leading-edge gene.。在GSEA分析中在最大ES处或之前的排名中发现的基因子集。这个基因子集通常可以解释被定义为富集的通路。 Box2 通路富集分析资源Pathway databases 我们列出了一系列大型,开放获取且便于访问的通路数据库,这些数据库为通路富集分析提供了最大价值。数百个通路数据库可用于多种目的82。 Gene set databases *基因本体论(GO)57:GO为生物过程,分子功能和细胞组分提供数千个标准化术语的分层组织,以及基于这些术语的多种物种的策划和预测基因注释。生物学过程GO注释是通路富集分析中最常用的资源。
Detailed biochemical pathway databases 这些数据库由管理团队维护,他们手动收集详细的通路信息,包括生化反应,基因调控事件和其他基因相互作用。信息可以导出或转换为基因集格式。
Pathway meta-databases 这些数据库收集自多个源通路数据库的详细通路描述。
|
|