分享

生物功能富集分析方法梳理

 ypgao 2018-03-03

在高通量测序的生物信息分析服务中,基本提供的都是一套流程化的服务。虽然我们天天说个性化服务,但是真正能提出个性化服务的人寥寥无几。多数人停留在能看懂图表的程度上(这个程度其实真心不错了呢),但是对于其背后的意义了解的不够多,所以才无法提出真正适合自己的个性化分析要求。从今天开始,小编就讲讲生信分析内容后面的原理,水平有限,小伙伴们凑合看,有砖轻拍,可以扔鸡蛋。这样小编就有饭吃了,笑。饭是一口一口吃滴,路是一步一步走滴,今天先说说最基础的生物功能富集分析。

在表达分析中,包括芯片表达谱和RNA-seq,我们能得到海量的数据。将其表达量进行归一处理后(以前小编有讲过表达量计算这个问题),基于一个cutoff值,我们能收获成堆的差异基因。此处关键的步骤在于获得的成百上千的差异基因要怎么处理?我们就可以基于生物功能富集分析,将其归纳到生物学通路上,以此为基础,揭示和理解生物学过程的基本分子机制,为后续研究指明方向。



 

生物功能富集到现在,经历多年的发展,也在不断的进步。

第一代过代表分析方法(ORA),这类方法以 Fisher's exact test 为代表。它的输入数据是一个由差异基因构成的列表,这些基因之间相互平等,没有权重。即其针对的数据是一组感兴趣的基因(基因列表),其目的是在这组基因中发现有明显统计学上富集的基因功能集。

第二代功能集打分方法(FCS),这类方法以 GSEA 为代表。它不仅要输入基因列表,而且需要赋予每个基因一个感兴趣的统计量。一般是t统计量或者Fold Change之类。

第三代基于通路拓扑结构分析方法(PT),以 SPIA 为代表。它的输入需要在第一代或第二代方法的基础上,结合实际的生物信号通路的拓扑结构,就是需要提供例如,C基因在A和B基因上游,激活A,且抑制B,这类信息。存在的主要问题,一个是已知的生物数据不完整,再一个是模型复杂,抗干扰能力差。输入的一点儿扰动可能就是完全不一样的结果。对了,最常用的GO等注释数据库中基因功能集中不包含任何拓扑结构信息,仅提供了可能属于同一通路的所有基因列表。因而,PT 方法不能被用于GO通路的富集分析。

现在还有基于网络拓扑结构的NT方法。利用数据库中的基因相互作用关系来间接地把基因的生物学属性整合入功能的富集分析。这些方法的主要思路是利用现有的全基因组范围的生物网络。此类富集方法出现时间较短,目前还不是主流,不多介绍啦。小伙伴们持续关注即可。

今天主要介绍第一代和第二代方法。

第一代ORA方法是目前最为广泛的方法,目前常见的KEGG富集分析,GO富集分析等等本质上都是此类方法。此类方法基于经典统计学的检验方法。其基本步骤包括先将给定的基因列表与待测功能集做交集,找出其中共同的基因并进行计数,最后利用统计检验的方式来评估观察的计数值是否显著高于随机,即待测功能集在基因列表中是否显著富集. 常见的统计学方法有卡方检验,Fisher 精确检验和二项分布检验。最为广泛使用的是 Fisher精确检验,根据超几何分布来检验基因列表中的基因在待测功能集中是否显著富集。

在一个RNA-seq中,得到了20000个mRNA,计算表达量。然后,根据一个cutoff值来确定差异表达基因。一般我们会用Fold Change≥2且p≤0.05这样的标准。根据此标准筛选,我们得到了200个上调差异表达基因。同时,我们在数据库检索发现20000个表达基因有300个基因属于A通路,200个差异上调表达基因里其中有10个属于A通路。我们可以得到如下一个表格。将除掉总和之后的四个数字输入到软件中,既可以得到P值。有大批的在线软件可以实现。同学们感兴趣的可以试试。




这时候我们可以看看A通路是不是在上调差异基因中具有显著性,如果是,我们可以认为在此实验条件下A通路上调表达。ORA方法基于完备的统计学理论,具有结果稳健、可靠。但也有一定的局限性:在对基因进行计数时, 丢失了基因的表达水平或表达差异值等基因属性信息;把通路中的所有基因进行同等对待,忽视了基因在通路内部生物学意义的不同及基因间复杂的相互作用;在获得感兴趣的基因时,往往需要选取合适的阈值。

FCS 的检验对象则是待测基因功能集中的所有基因。FCS 方法的基本步骤包括:首先对基因组中所有基因表达水平的差异值进行打分或排序;其次把待测基因功能集中的每个基因的分数通过特定的统计模型转换为待测基因功能集的分数或统计值。最后利用随机抽样获得的待测基因功能集统计值的背景分布来检验实际观测的统计值的显著水平,并判断待测基因功能集在案例和对照实验状态下是否发生了统计上的显著变化。额,说了一大段感觉和没说的区别不大。

介绍下常用的一个工具GSEA。其基本思路是首先基于表达差异值对全基因组基因进行排序得到基因列表,然后检验待测基因功能集中的基因相对于随机情况而言,是否显著地位于基因列表的顶端或底端,即待测基因集的表达水平在案例和对照实验状态下是否发生了明显的变化。本质是一个变种的Kolmogorov-Smirnov检验。在此插个题外话,Kolmogorov是一位极其出名的科学家,曾有人怀疑过其不是一个人,而是一个研究所……



GSEA的界面长这样,嗯,比较丑,所以才没有流行开来。看那个色条,这代表了你所得到的mRNA。还是以上面那个例子为例。此时这个色条就是那20000个mRNA,从红色到蓝色,表示从上调到下调。黑色竖线表示在该位置处的基因属于A通路,一共300个。色条下方有条虚线,我们能看到,在此位置,色条由红转蓝,它表示这这里基因表达从上调转变成下调。在GSEA这个检验里面,我们实际上就是在检验哪些黑色竖线是否有往颜色条一端富集的趋势。当然,这个图显示的和咱们的数据例子是反着的,小伙伴们可以扔鸡蛋了。

在FCS方法中,不同方法采用了不同的统计模型来计算待测基因功能集的统计值。如 GSEA使用了加权的近似KS检验,GSA利用基因的表达差异的t值的绝对值来计算待测基因功能集的统计值,PADOG采用基因的t值加权平均值,Global Test则采用了经验贝叶斯广义线性模型等等。总体而言, FCS 相较于ORA方法在理论上有明显突破,考虑到了基因表达值的属性信息,而且以待测基因功能集为对象来进行检验,也使得检验结果更加灵敏. 但FCS方法仍然把待测基因功能集中的每个基因作为独立的个体,忽略了基因的生物学属性和基因间的复杂相互作用关系。

今天主要介绍RNA-seq分析中基础且关键的生物功能富集。希望大家能够有所启发,理解这些检验方法背后的思想,从而在做自己的数据分析时能够真正的提出自己的问题,有能力定制适合自己的分析方法。

文案:崔鹏鹏

编辑:王   倩


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多