分享

GSEA(Gene Set Enrichment Analysis)

 GCTA 2022-06-11 发布于贵州

GSEA(Gene Set Enrichment Analysis; 基因集合富集分析) 

富集是将一组基因根据一些先验的知识(也就是常见的注释)进行分类的过程。也就是物以类聚。我们一般会想到最常见的是GO/KEGG(pathway)富集,其思路是先筛选差异基因(也就是不同的处理后基因组里发生表达变化的那些基因。如果培养条件没有发生变化,那么细胞在短时间内是不会发生很大的基因表达差异的。当我们对细胞经行处理或者改变其培养条件的时候,细胞就会对外界的变法进行反应,以适应环境的变化。理解了基因组的变化规律,以及各个基因的功能,我们就可以理解细胞适应环境的机制),然后确定这些差异基因的GO/KEGG注释,然后通过超几何分布计算出哪些通路富集到了,通常会选择一个阈值来卡一下,比如p值和FDR等。因此这会涉及到人为的阈值选择,具有一定的主观性,而且只能用于差异较大的基因,所以结果可能有一定的局限性。 根据上述情况,有了GSEA(Gene Set Enrichment Analysis),其思路是发表于2005年的Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.

主要是要有两个概念:

1. 预先定义的基因集S(基于先验知识的基因注释信息,比如某一个生物功能或者信号通路里面涉及的基因。在图中就是一条条黑色的竖线);

2. 待测基因集L(也就是我们想要分析的一组基因,一般是表达矩阵,而不是单纯的基因列表。包括基因名称和基因表达情况。虽然是基因集,但其实是一个大集合,甚至可能包括所有基因的表达情况。我们做实验提蛋白/RNA/DNA时很多时候都是提总体的,我们称之为总蛋白-total protein;总RNA-total RNA; 总DNA-基因组。我们这里得到的表达矩阵也可能包含全体基因组的表的情况。当然也可以是我们选择的基因集,不过要保证这个集合大于预先定义的基因集S,也就是要扩大分析范围。我们提供的表达矩阵的颜色和图中中间横条的颜色是一一对应的);

GSEA目的就是判断S基因集中的基因随机分布于L(排序后的数据集,按什么来排序的呢?排序依据就是表达矩阵里所有基因的表达情况。从下图中我们可以看到中间有由红到蓝排序的一长条,其实这就是待测基因集L。这个表达高低不是绝对的或者真实的表达水平高低,而是和对照组control比较的,比如不受实验处理的管家基因就是中间白色的部分),还是聚集分布在L的顶部或者底部(这也就是富集)。如果待测基因集中的某些基因显著富集在L的顶部或者底部,这说明这些基因的表达(因为其是根据表达谱数据)对你定义的分组(预先分组)的差异有显著影响(一致性),从而找到我们关注的基因集;

简单说,待测基因集L就相当于提供一系列不同水平的位置,然后让预先定义的基因集S对号入座,在左边坐(富集)就相当于这个预先定义的基因集S在我们的处理体系中水平上调了;同理,在右边坐(富集)就相当于这个预先定义的基因集S在我们的处理体系中水平下调了;如果均匀分布,这个很难解释,对于一个生物功能/信号通路的某一些基因表达增强了,而有些却减弱了,这不能说明这个生物功能/信号通路上调或下调,不过这可能暗示这个生物功能/信号通路的不同成员在我们的处理环境中扮演相反的作用。换一种说法,待测基因集L本来是混乱的/有待分析的,我们先将这一些列的基因按照相对的表达水平排序,然后让预先定义的基因集S认领各个基因的具体位置,不同位置就代表不同的相对表达水平。待测基因集L相当于参加高考的学生们,而预先定义的基因集S就是不同社区的家长,学生先按高考成绩排序,然后每个家长都站到自己孩子旁边,这样某个社区的家长整体的相对位置就代表这个社区的教育水平了。

在富集分析的理论中,GSEA可以认为是第二代,即Functional Class Scoring (FCS) Approaches

分析结果示意图

GSEA-homegraphic.gif

=========================

分析结果

文章里最常见的GSEA的结果图片,如下图所示:

GSEA_result

从图上,可以看到Enrichment plot(富集图表)后面由一段文字,这里指某个生物功能或者信号通路,代表预先定义的基因集S。我们一般关注ES值,峰出现在前端还是后端(ES值大于0在前端,小于0在后端。这与测基因集L按相对表达水平排序相呼应)以及Leading-edge subset(即对富集贡献最大的部分,领头亚集);在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义;对于分析结果中,我们一般认为|NES|>1,NOM p-val<0.05,FDR q-val<0.25的通路下的基因集合是有意义的。

除了上述的结果外,GSEA还提供了Running the Leading Edge Analysis等操作。

------------------------------------------------------------------------

嫌太长不爱看的看这:

GSEA可以弥补GO和KEGG/Pathway分析的不足,宏观分析某一个生物学功能或者信号通路是否跟我们研究对象(一般是经过我们实验处理后者某种特殊状态的细胞)有关,峰在左侧表示这个生物学功能或者信号通路在我们的体系中上调,右侧则下调。

-------------------------------------------------------------------------

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多