分享

实例解析基因组表达数据工具GSEA:繁华三千,我只为GSEA饮尽悲欢

 生物_医药_科研 2019-04-23

随着高通量测序技术的飞速发展,生物医学实验中已经不再局限于研究单个分子的功能,生物医学已经进入组学时代。比如临床样本,不同的处理后导致了哪些分子的差异,测序结果可能会有数百甚至数千个差异基因。手握数千个差异基因反而不知道如何着手分析了,这个时候我们就可以进行基因的功能富集分析,看看这些差异基因主要集中在哪些生物学活动中,集中在哪些信号通路中,为进一步的研究提供思路。

在过去,经典的功能注释与功能聚类常用由NIH开发的DAVID完成,但是它更新慢且在分析的时候容易忽视实验中差异不显著的基因(有时候基因差异少,功能富集不出来。或者,因为筛选差异基因的时候由于设置的参数不合理而漏掉具有研究价值的基因)。这个时候就可以试用GSEA/Gene Set Enrichment Analysis,即基因集富集分析。相比于常规的富集方法,GSEA无需做差异分析,直接拿所有基因的表达量即可找到实验组和对照组有一致性差异的感兴趣的通路。这样不经筛选差异可以保留了这些关键信息,进而找到那些差异不很明显但是基因差异趋势很一致的功能基因集。

认识GSEA


在GSEA分析之前你至少需要准备两个文件

● 一份是你需要研究的表达谱文件(可以是res, gct, pcl, or txt四种文件格式)

比如你研究的某种药物对某种癌症的治疗效果。A组为对照组/不给药物治疗  B组为实验组/药物治疗  现在你有了相应的两份表达谱 A,B。A,B两个组各有若干样本,GSEA分析时会自动将A,B两个组中的所有基因排序,但是这里的排序是根据表达差异排序,在这里即使是某个基因在两组中表达差异极小也不会像常规的富集方法一样被过滤掉-GSEA的优势。

● 一份是你研究的表型文件(cls文件格式)

对应着你的表达谱文件,你需要生成一份表型文件告诉GSEA哪个样本对应的是哪一个分组组。

比如上图A中,矩形条代表你的表型文件,其中红色部分代表你的对照组,蓝色部分代表你的实验组。下方的热图对应的表达谱文件,热图中基因从上到下的排列依据是基因在A,B两组的表达差异值大小(热图中红色部分即代表基因在对应的组中是高表达)。

上图B中左面部分的矩形条代表一个基因集,其中的每一条线段代表这个基因集中对应的一个基因。GSEA软件分析时你基本不需要自己制作基因集文件,因为对应GSEA分析有一个注释的基因集数据库MSigDB(Molecular Signatures Database)。这个数据库中从基因不同角度划分基因集主要分为8个大的集合,每一个大集合下面又可细分为若干基因集(如下图右侧就是H: hallmark gene sets (效应)特征基因集合下的具体50个基因集):

H: hallmark gene sets (效应)特征基因集合

C1: positional gene sets 位置基因集合

C2: curated gene sets:(专家)共识基因集合,通路、文献

C3: motif gene sets:模式基因集合

C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合

C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)

C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据

C7: immunologic signatures: 免疫相关基因集合

实例讲解GSEA

接下来我们通过一个具体的实例来看到底怎样使用GSEA得到想要的分析结果。

GSEA下载 :

http://software./gsea/downloads.jsp

(成功运行先安装好java)

1
目标

假设我们想探究正常食管上皮样本/normal esophageal epithelium (N)与食管腺癌样本 esophageal adenocarcinomas (ADC) 两个分组的基因表达谱,探究导致食管腺癌的原因主要集中在哪些基因集(GEO accession:GSE1420)

2
准备文件

(1)制作基因表达谱文件

表达谱数据可以从GSE1420数据集中得到(因为表达谱文件的基因识别信息是探针序列,所以要先通过对应得测序平台找到探针序列对应的基因名)

表达谱文件

(2)制作表型文件

表型文件的数据也可以从表达谱文件中找到相应的样本,对应的标注出哪些样本是正常食管上皮/N,哪些是食管腺癌/ADC

  表型文件

#(在excel中制作相应的表达谱文件与表型文件时候,内容改为相应的格式后先保存为制表分隔符文件格式,然后再将相应的扩展名改为对应的格式,这样就运行就不会有任何问题)

3
GSEA运行

(1)加载表达谱文件与表型文件

(2)设置合适的运行参数

# 参数运行界面中:

(B)(C)都是可选操作 有任何疑问可以访问以下链接/官网解释

http://www./gsea/doc/GSEAUserGuideFrame.html?gmx

(A)表示必须自己设置的菜单

I 选择你的表达谱文件/即加载数据时的表达谱文件

II 选择你感兴趣的基因集,比如此处我想探究表达谱基因GO分析下参与的生物学过程中富集(后缀V1/V2 表示基因集数据库MSigDB的版本)

III 计算置换的次数,官方推荐1000

IV 表型的选择,比如此处我们可以选择正常食管上皮在前面(这个选择对结果的解读没有任何影响,看自己的爱好)

V 因为之前制作表达谱文件的时候我们有通过测序平台找到探针对应的基因名,此处选择否/false,若是之前没有改探针名为基因名,则在7中要选择相应的测序平台,若是选择false则7不用填

VI 若是两个分组中的样本数都大于7,则在此处选择phenotype,否则选择Gene_set

VII 对应于5的选择

4
GSEA运行


5
GSEA Report

(大部分的结果都可以自己很容易看懂,选择重点的解读)

(1)Snapshot

Snapshot是其中结果的最重要的部分(这里演示normal样本),也就是我们在文献中常见的图,如下:

(Snapshot中默认显示20个类似的图,选择第一个打开,跳转的网页中有如下内容)

① 一个汇总的结果报告

说明DOPAMINE_RECEPTOR_SIGNALING_PATHWAY这一基因集在normal组中高表达

② 一个对于这一基因集中的基因详细说明的表格

对于该基因集下的每个基因给出了详细的统计信息,RANK IN GENE LIST代表基因集中该基因在表达谱中排序的位置, RANK METRIC SCORE代表该基因排序量的值(表达谱是按照基因在两个表型组中的差异值大小排序),比如foldchange值,RUNNIG ES代表累计的Enrichment score, CORE ENRICHMENT代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因

③ GSEA分析结果图(下图左侧)

整个图分为三部分。最上部分绿色的曲线是运行GSEA时基因集中每个基因计算得到的Enrichment score/ES分值的轨迹。在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因(在本例中峰值对应的基因就是上图表格中的HMP19基因。第二部分矩形框代表的就是DOPAMINE_RECEPTOR_SIGNALING_PATHWAY这一基因集,每一条竖着的线段就表示相应的基因。第三部分显示的是表达谱文件中所有基因在GSEA运行处理前后的变化量/Z-score标准化。(下图右侧是Enrichment score/ES分值的计算方法)

④ 基因集热图展示

(2)enrichment results in html

将normal表型组中富集分析的基因集详细信息以网页的形式打开(本例中共计1413个基因集,此处仅展示了部分)

GSEA运行报告中还有其他信息,但是都比较容易看懂

总结

随着高通量技术的发展,测序数据越来越多,基因注释越来越详细。资源的获取已经不是问题,或许对大家而言更难的是怎样从无穷的信息中筛选出自己感兴趣的课题。基因的富集分析是科研前期中常见的筛选课题的方法,其中GSEA更是常被发现于高分杂志中。

本文开头先是简单介绍了一些GSEA的优势与难点,让大家先是对GSEA有一个全局的认识。接着以一个实例操作讲解怎样一步步从制作数据文件到运行基因集富集分析,最后得到我们常见于文献中的GSEA报告图,并对结果进行了详细的解读。相信本文可以让你真正从一个新手到成功分析自己的数据,解决自己相关的科研问题!

—END—
征 稿 启 事

「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),详情请戳

“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。

医学方已推出“实验室那些事儿”“SCI写作技巧”“文献精读与解析”“医学英语轻松学”“国自然基金申请”“临床数据挖掘”、“基因数据挖掘”、“R语言教程”、“医学统计学”、“微创动物实验培训”等多个专题课程,如需了解课程详细推文,可关注“医学方”公众号,点击“精品专题”进入



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多