这几天抽空把GSEA分析学习了一下,这是笔记内容,比较粗糙,不保证完全正确,最好再看一下官方的使用说明。 GSEA的全称是Gene Set Enrichment Analysis,中文翻译就是基因集富集分析,最早提出GSEA的文章是下面的这篇文献: 基因集富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类(注:我个人理解先验知识就是先于经验的知识,例如我们从书本上知道地球是圆的,这就是先验知识,我自己没有亲自去测量,也无法观察到,就知道地球是圆的。基因组注释就是对碱基序列的注释,给出一段碱基序列,根据前人研究的结果,我知识它是什么基因,发挥了什么功能,以上就是对先验知识的理解)。最早提出GSEA的文章是下面的这篇文献: Subramanian, A., et al. (2005). 'Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles.' Proceedings of the National Academy of Sciences 102(43): 15545-15550. 常规分析的局限使用芯片或测序技术已经成了生物研究的常规手段,获取某个样本的整个表达谱已经不再困难,但是,如何从这些表达谱中发掘有用的信息,以及对生物学现象进行解释则是一个挑战。在一个典型的研究中,例如我们研究某个抗肿瘤药物对于两种肿瘤细胞(一个对药物敏感,一个不敏感)的效应,然后检验这两类肿瘤细胞的表达谱,可以获得数千个基因的变化信息。我们根据这两类细胞之间基因表达差异的情况,例如根据它们之间的差异倍数,对它们进行排序,得到一个列表
GSEA就是为了解决上述的问题而提出来的。此方法可以在基因集(也就是多个基因)水平上来处理表达谱数据。这里所说的基因集(gene sets)是指基于当前积累的知识,例如关于生物通路知识或以前得到的共表达数据来定义的一组基因。GSEA主要研究一个基因集S(这里的S指的是我们定义的基因集)出现在目标基因列表L(也就是实验得到的按表达倍数排序的基因列表L)的顶部或底部是否与实验中的不同表型有关。 因此,我们就可以知道,GSEA分析有三个特点:①分析的基因集合而不是单个基因;②将基因与预定义的基因集进行比较;③富集分析。 与GO(Gene Ontology)和KEGG pathway分析相比,GSEA分析的主要优势在于: 一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片或测序结果。 GSEA的原理首先是对每个样本里面的基因表达值在样本内部进行排序,这里可以理解为,实验组与对照组的差异基因进行排序。但是,这个差异如何量化,有多种方法,可以是Signal2noise,或者是T检验的值,或者是fold change的值,或者是logFC等。而GSEA默认的就是signal-to-noise metric来对基因进行排序。如果要想计算Signal2Noise ,每个group必须要有3个及以上的samples。 现在我们定义一下各种参数。 其中我们把自己测出来的差异基因的排序列表称为 以下是GSEA计算中的几个概念。
其中
GSEA分析所需要的文件GCT文件GCT格式是由分割符分开的一个数据文件,它记录的是基因表达的数据集,也就是我们要进行GSEA计算的原始数据,它的格式如下所示: 从左到右,顺时针看到下,GCT文件包含以下这些信息:
CLS文件CLS的全称是Categorical (e.g tumor vs normal) class file format,它表示的是分组的信息,下面是一个CLS文件的内容: 以上面的图片为例说明,第1行有3个数字,分别为38, 2, 1。其中38是样本的数目,2是分组的数目,1不用管。第2行,分别是ALL和AML,这表示的是分组的信息,即有2个组,分别为ALL和AML。第4行,分别是0和1,0表示ALL,1表示AML,它们的数目表示各自的样本有多少个。再看一个案例: 在这个案例中,我们可以看到一共有9个样本,分了3组;这3组分别为KRAS_MUT,WT,MYC_MUT,第3行是具体的分组数目。 常用的定义基因集的文件主要有GMT与GMX。 GMT文件GMT文件的全称是Gene Matrix Transposed file format,中文是“基因矩阵转换文件格式”,缩写为GMT。GMT文件是由制表符分割的文件,它用于描述基因集,可以理解为高通量测序的注释文件。下图是GMT文件的一个案例,每行代表一个基因集: 在上面的图片中,我们可以看到,第1行表示的一个是基因集,第1列表示的是是基因集的名称,这一列不能出现重复的基因集。第2列是对基因集的一个简单描述,可以选择不填(写上na),第1列的长度可以不等,如果要在Excel表格中编辑GMT文件,一定要注意Excel的自动纠正功能(例如,Excel有可能把SEP8基因自动纠正为8-Sep)。 GMX文件GMX文件是另外一种描述基因集的文件格式,下图是GMX的一个案例,它与GMT格式正好相反,它的每列代表一个基因,如下所示: RNK文件RNK文件的全称是Ranked list file format,这个文件是一个有序的基因列表,第1列是基因名称(A1单元格忽略),第2列是数值(可以是表达倍数差异,也可以使用类似于t检验进行的排序),如下所示: GSEA使用案例这个案例使用的是GESA官网的数据,数据是p53突变型与野生型的肝细胞系的表达谱,这里使用的是芯片的表达数据,芯片现在已经不怎么用了,这里只是讲一下GSEA官网这个软件的使用。 第1案例第一步,去官网地址下载GSEA软件,如下所示: 下载后,打开,界面如下所示: GSEA的官网提供了一些数据的案例,我们可以拿来练习一下,地址点击这里,这些数据如下所示: 这里以第2行的 使用Excel打开 现在用Excel打开P53.cls这个文件,这个文件是注释信息,如下所示: 从注释信息中我们可以得知,有50个样本,分为两组,分别为2和1表示这两组,2表示MUT组,1表示WT组。将上述的数据导入到GSEA中,过程如下所示: 打开 此时右侧出现新的页画,打开 导入要分析的文件,分别为cls,gct文件(gmt文件后面可以直接在软件中下载),如下所示: 此时,单击左侧的 此时出现一些参数的选择页面,如下所示: 在第一行的 在第二行的 根据官网的的信息,选择 第三行,Number of permutations,此处设为10(我开始设了1000,没跑出来); 第四行,Phenotype labels,选择 第五行,Collapse dataset to gene symbols,此处填false,这个参数用于说明是否要把探针的编号转换为基因ID(gene symbols),由于 第六行,Permutation type:填入phenotype。 第七行,Clip platfrom,芯片类型,前面Collapse dataset to gene symbols已经是false了,因此这里不用选,再看第二个页面,也就是Basic fields,填入要分析的样本名称,保存结果的文件夹,如下所示: 填完之后,单击最下面的Run,如下所示: 此时,GSEA开始运行,如下所示: 运行结束后,系统有提示,如下所示: 现在进入保存结果的文件夹,如下所示: 其中,我们选择index这个html文件,就可以看到分析整体结果,如下所示: 打开,如下所示: GSEA结果解读第1部分现在分别查看这些结果的信息,先看第一部分: 在这一部分中,从上到下,可以看到:
再回到主页面,如下所示: 单击 现在把标题栏放大,如下所示: 其中,
SIZE表示基因集里的基因数; ES表示富集分数的ES值; NES表示校正后的ES值; NOM p=val是名义P值; FDR q-val用FDR法校正后的P值,即Qvalue; FWER p-val用FWER法(Bonferonni校正)校正后的P值 RANK AT AMX表示ES值达到最大进度,对应的通路基因的排名; LEADING EDGE,显示了用于定义Leading edge subset的一些参数,分别有Tags,List,Signal。
现在单击一下 拉到中间区域,就会看到这样的结果,即; 现在解释一下这个列表:
如果在GSEA软件中运行Leading Edge Analy8sis,就会出现下面的结果,如下所示: 其中,先看第1张图,如下所示: 这是一张热图,它显示了leading edge subset中的基因情况,在热图中,基因的表达值按5种颜色进行区分,分别为red, pink, light blue, dark blue,它们代表基要因的表达水平为high, moderate,low, lowest。 再看第2张图,即右上,这是Set-to-Set图,如下所示: 这些颜色块显示了subset之间的重叠情况,如果颜色块越深(仔细看,有些颜色非常浅),表明subsets之间的重叠性越高,一个小方格中的A与B的密度对应了X/Y的比例,其中X是A中leading edge genes的数目,Y表示,A与B的并集。颜色越深,表明,A与B含有的相同的leading edge gens越多,如果方格是白色的,表明A与B不含有相同的leading edge genes。 再看第3张图,即左下的图,如下所示: 这张图的最底部是基因的名称,纵坐标表示,含有这个基因的功能基因集S的数目。 再看第4张图,也就是右下图,如下所示: 这个图是直方图,其中横坐标Jacquard表示,每对leading edge subset的交集除以并集(可以看到,它就是个小数,毕竟交集的数目要小于并集的数目)。Number of Occurrences表示在一个指定的bin内,配对的leading edge subset数目,在这个案例中,大多数的subset配对的Jaccard结果都位于0到0.02之间,可以说,大部分的配对的Subsets都没有重合的部分。 下面是原文:
GSEA的主要观察指标GSEA主要看四个指标,分别为ES,NES,名义p值,FDR值,现在分别解释一下。
通过校正原始ES值,NES可以解释 NES基于所有数据集置换(permutation)的基因集富集分数进行计算的,因此通过改变置换方法,以及置换数目,或者是基因表达数据量的大小,都能影响NES。例如,现在我们看2个分析:
FDR描述的是一个估计的可能性,即当一个功能基因集的NES值确定后,判断其中可能包含的错误的阳性发现率,例如FDR=25%意味着,对此NES值的确定,4次中可能有1次是错的,在GSEA的结果报告中,高亮显示了FDR值小于25%的富集功能基因集,因为从这些富集功能基因集中最可能产生有意义的科学假设,方便进一步深入研究,在多数情况下,选择FDR为25%来作为阈值,因为通常用于分析的芯片表达数据之间,大部分都缺乏一致性,而且每次分析的功能基因集数据不多,但是当分析的芯片数据集较小,分析时选择的是探针之间的随机组合,而不是表型间的随机组合,P值采用的严格度不高时,应该选择更加严格的FDR阈值,例如FDR=5%。一般而言,NES的绝对值越大,FDR的值就越小,说明宝座度越高的功能基因集,分析的结果可信度就越高。
名义p值描述提针对某一个 通常情况下,我们一般认为|NES|>1,NOM p-val<0.05,fdr>0.05,fdr><> 现在再回到主页面,如下所示: Detailed enrichment results in excel format (tab delimited text)这一行是使用Excel表格呈现的富集分析结果; 最后一行,即Guide to interpret results,则是对结果的说明。 第2部分再看结果的第二部分,即如下所示: 这是对MUT组的富集分析结果,内容与WT组的差不多。 第3部分现在看第3部分,如下所示: 这里的信息提示,一共分析了10100个基因; 第4部分看第4部分,如下所示: 这是是功能基因集S的一些信息,第一行提示,根据min=15,max=500的标准来筛选,1329个基因集中,不能用的有430个,能用的有899个; 第二行信息说明,能用的基因集是899个(WT组有421个,MUT组有478个); 第三行说明,基因集的内容,也就是不同的功能基因集中有多少个基因。 第5部分再看第5部分,如下所示: 从这一部分中,我们可以看到这些信息: 第1行:一共有10100个基因; 第2行:WT组的基因是5707个,占56.5%,它所点相关关系面积的59.8%(这个59.8%我的理解就是在ES富集分析图中,最下面的那个灰色区域); 第3行:MUT组的基因是4393个,占43.5%,它所点相关关系面积的40.2%; 第4行:目标基因列表的排序,是个Excel表格,打开,如下所示: 一共是10100个,最后一部分如下所示: 第5行:热图和相关关系的示意图(只显示了前50个基因),其中,热图用5种颜色来表示基因表达水平的高低,即red, pink,light blue, dark blue分别表示high, moderate, low, lowest,如下所示: (热图内容:Heat Map of the top 50 features for each phenotype in P53_collapsed_symbols.P53.cls#WT_versus_MUT ) (图片内容:Fig 2: Ranked Gene List Correlation Profile Ranked list correlations for P53_collapsed_symbols.P53.cls#WT_versus_MUT ) 此外,在GSEA的使用的手册上发现,还有一种蝴蝶图(Butterfly plot)不过,在我的这个分析中,貌似没有找到。蝴蝶图显示的是基因顺序和排序度量得分(ranking metric score)之间的正相关和负相关的关系。默认情况下,蝴蝶图只显示排名前100的基因,这也就是说,它只显示目标基因列表的前100个和最后100个基因。不过,可以在Run GSEA Page这个页面中设置Number of markers参数来设置显示的基因数。富集图下面的部分显示了观察到的基因排列和ranking metric score得分之间的相关关系,蝴蝶图显示了观察到的相关关系,以及置换(1%,5%,50%)正相关,负暗相关的关系。蝴蝶图提供了一些哪些功能基因集的置换能够改变基因排序和ranking metric score的信息,如下所示(这张图是从使用手册中截取的,不清楚): 第6部分再看第6部分,如下所示: 第1行表示,p值与NES的图,如下所示: 第2行显示了全局的ES值,如下所示: 第7-8部分剩下的内容如下所示:
参考资料1. GSEA分析一文就够.Jimmy.生信技能树 2.GSEA富集分析 - 界面操作 3.基因集富集分析 4.GSEA分析是个什么鬼(上) 5.GSEA User Guide 6.Quick Tour of the GSEA Java Desktop Application 7.用GSEA来做基因集富集分析 8.使用PGSEA包进行基因集分析 9.制作自己的gene set文件给gsea软件 10.Quick Tour of the GSEA Java Desktop Application 11.冯春琼, 邹亚光, 周其赵,等. GSEA在全基因组表达谱芯片数据分析中的应用[J]. 现代生物医学进展, 2009, 9(13):2553-2557. |
|