分享

掀起你的盖头来,GSEA富集分析

 Leechhaaoo 2021-04-05

前面说过,GO分析给出差异表达基因的基本特征描述,比如细胞组分、生物活动和分子功能,但是这种描述都是笼统的概述,并不具体。比如,GO分析描述一个人,从长相、籍贯、学历、专业、工作等等,但是对于这个人在家庭、工作和社会中的具体作用则没有描述。KEGG分析就是阐释差异表达基因的“社会关系”——这个人的家人、同事、领导和朋友关系等,以此阐释基因的功能,尤其重视其参与的信号通路。

但是,GO/KEGG富集分析存在一些不足,比如差异表达需要主观的过滤,而微弱差异但具有效力的基因集被过滤掉了。因此,需要一种不是基于差异表达的分析方法来进行纠正这种不足。这种方法就是GSEA富集分析。

GSEA的输入是一个基因表达量矩阵,样本分成A和B两组,首先按照差异表达的程度对所有基因进行排序。排序后的基因列表,顶部是上调的差异基因,底部是下调的差异基因。

原理有些复杂,但是网友的解释简明易懂——给定一个排序的基因表L和一个预先定义的基因集S (比如编码某个代谢通路的产物的基因, 基因组上物理位置相近的基因,或同一GO注释下的基因),GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集(链接:https://www.jianshu.com/p/be1211dce097)。



一般展示在论文里面的结果如下。

 

根据所有基因在两组样本(case-control,upper-lower)的差异度量不同(共有六种差异度量,默认是signal 2 noise,GSEA官网有提供公式,也可以选择fold change),根据差异度量大小排序,并且Z-score标准化。图中间的竖杠,就是每个gene set里的基因在所有排序好的基因的位置。如果gene set里的基因集中在所有基因的前部分,就是在case里面富集,如果集中在后面部分,就是在control里面富集(结果中的热图就是竖杠的具象)。

一般关注ES值,峰出现在前端还是后端(ES值大于0在前端,小于0在后端),和Leading-edge subset (即对富集贡献最大的部分,领头亚集);在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义。

每个基因在gene set里的ES score取决于这个基因是否属于该gene set及其差异度量,上图的差异度量就是FC (foldchange),将每个gene set里的所有基因的ES score一个个加起来,叫running ES score,直到ES score达到最大值,就是这个gene set最终的ES score。 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多