说到富集,富集是将基因根据一些先验的知识(也就是常见的注释)进行分类的过程。我们一般会想到最常见的是GO/KEGG富集,其思路是先筛选差异基因,然后确定这些差异基因的GO/KEGG注释,然后通过超几何分布计算出哪些通路富集到了,通常会选择一个阈值来卡一下,比如p值和FDR等。因此这会涉及到人为的阈值选择,具有一定的主观性,而且只能用于差异较大的基因,所以结果可能有一定的局限性。 根据上述情况,有了GSEA(Gene Set Enrichment Analysis),其思路是发表于2005年的Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles,主要是要有两个概念:预先定义的基因集S(基于先验知识的基因注释信息)和待测基因集L(一般是表达矩阵);然后GSEA目的就是为了判断S基因集中的基因是随机分布于L(排序后的数据集),还是聚集分布在L的顶部或者底部(这也就是富集)。如果待测基因集中的某些基因显著富集在L的顶部或者底部,这说明这些基因的表达(因为其是根据表达谱数据)对你定义的分组(预先分组)的差异有显著影响(一致性),从而找到我们关注的基因集;在富集分析的理论中,GSEA可以认为是第二代,即Functional Class Scoring (FCS) Approaches GSEA的使用这里不详细说算法,具体可看GSEA的文章,因为我也是一知半解。。。 下载地址http://software./gsea/downloads.jsp,PS.会验证下你的邮箱,先注册下 第一次使用的话,而且数据不大的话,建议使用javaGSEA 打开后的界面如下: 数据准备因为GSEA分析一般只作用于人物种的,所以我准备以TCGA的BRCA的mRNA数据作为测试数据,正好也试下UCSC xena 浏览器才是最简单的TCGA数据下载途径这个方法来下载TCGA数据(数据还蛮新的,2017年的) 其还提供了ID/Gene Mapping的文件(整理好的),正好可以拿来用,因为虽然GSEA有EnsemblID转化的chip文件,但是感觉有些数据有点问题(可能是由于Ensembl的版本一直在更新的缘故),HUGO gene symbol最好 然后用R处理下,将癌组织和对应的癌旁组织的数据分别提取出来分别作为两组的表达矩阵(gct文件)以及或者分组文件(cls文件)
从上述代码,我获得118个癌组织样本和对应的113个癌旁样本的表达谱数据,并且将Ensembl ID均转化为了Gene symbol(避免之后用GSEA时,再用chip做ID转化);然后可以直接将txt文件作为输入,也可以将 接着是Phenotype labels文件(上述代码直接出了),即cls文件,格式如下图所示:第一行231代表样本数目,2代表分2组,空格间隔,1照抄;第二行井号注释说明分组信息;第三行为每个样本对应的组名,空格分隔 上述文件的详细格式可参照网站:http://software./cancer/software/gsea/wiki/index.php/Data_formats 如果网络不佳的话,接下来最好将Gene sets file(也就是GSEA软件上需要输入的Gene sets database),作者将gene sets都储存在Signature Database (MSigDb)中,去官网下载即可http://software./gsea/downloads.jsp,比如下载个 如果数据是芯片数据或者需要GSEA的chip文件做ID转化的话,则也可以先将chip文件下载下来,FTP地址:ftp://ftp./pub/gsea/annotations 软件使用因为是windows桌面式软件,使用就比较简单了。首先将 接下来点击RUN GSEA,就是几个指定参数的选择了,如下图所示:
除了Required field参数外,下面还有Basic fields和Advanced fields,具体参见官网吧(注:或者鼠标悬浮在对应参数名称上,有简单的参数介绍哦) 最后点击RUN,等待左下角的Running变成Success,然后点击Success即可查看完整的结果,也可以点击Show results folder,GSEA将所有结果都放在一个文件夹中了!!! 分析结果来看下文章里最常见的GSEA的结果图片,如下图所示: 从图上,我们一般关注ES值,峰出现在前端还是后端(ES值大于0在前端,小于0在后端)以及Leading-edge subset(即对富集贡献最大的部分,领头亚集);在ES图中出现领头亚集的形状,表明这个功能基因集在某处理条件下具有更显著的生物学意义;对于分析结果中,我们一般认为|NES|>1,NOM p-val<0.05,FDR q-val<0.25的通路下的基因集合是有意义的 除了上述的结果外,GSEA还提供了Running the Leading Edge Analysis等操作,也可以看看 GSEA的结果解读我也不是太熟悉,还是得多看看文献中的解释说明啦 多于多个样本的批处理,GSEA也有服务器版本,通过命令行即可操作,适合批处理操作;其还提供了R脚本可供使用(但官网上说似乎并一定可行,需要自己调整?),反正我也正准备都试试看。。。 参考资料: 功能数据库专题-GSEA 本文出自于http://www.转载请注明出处 相关Bioinformatics for Proteomics Data2018年2月26日在“Proteomics”中 甲基化芯片入门学习-基础知识(一)2018年1月9日在“Microarray”中 浅谈蛋白组的差异蛋白分析2018年4月12日在“Proteomics”中 |
|