文章目录这段时间有空为了某人学习了一下不属于我的领域的东西——GSEA分析(基因富文本分析),下面总结最近所学GSEA分析的步骤及方法。 1. 根据基因文件进行处理筛选对于已有的基因文件,一般是xslx或者是csv格式(不要问基因文件哪来的,外行人的我猜测应该是可以从某某网站下载),而这个文件一般排序都是乱的且只有一列,所以这个时候就要进行分列并排序了。如图为基因文件原始格式: 接下来进行分列操作: 接下来根据你需要分析的基因进行表达量大小的排序: 接下来进行数据转置操作: 因为此时的数据行和列是反的,不利于我们进行GSEA分析,因此需要进行转置。 新建一个空白表格 复制刚刚分列的表格内的全部内容 在空白表格以转置的格式粘贴
如图即为分列-排序-转置后的表格,瞬间清爽许多。 至此已经完成一半了,继续往下看。 2. 文件内容补充及改名因为步骤1所得到的文件GSEA软件并不能识别,为了能让GSEA软件识别,需要在表格第一行增添2空白行 同样还需要在第二列增添一列空白列,完成行和列增添后的表格如图所示 接着按照如下格式在空白行、空白列中增添内容。这里解释一下12197代表的是表格的每行的基因个数(行基因数),30表示每列的样本个数(列样本数)。#1.2是固定格式。然后在第二列也就是30下面填入Description,Description下面填入NA,这也是固定格式。 接下来对以上文件进行保存,选择另存为,保存类型一定要选择文本文件(制表符分隔)(*.txt),文件名则切换输入法为英文,然后在文件名里面先输入双引号,双引号里面填你需要的名字并加上.gct。比如我甜的格式就是: "cell_heatr1_high_low_gct.gct" (命名的时候尽量都用下划线_而尽量少用中划线-,因为有些编程语言不识别中划线,而下划线基本都可以被识别。还有的人也许喜欢选择保存类型之后就随便的命名然后直接更改文件的后缀,这种方法大概率在后期文件导入到GSEA软件时会出现导入失败,尽量别用这种方法) 至此,GSEA所需的gct文件就已经完成了。接下来制作cls表型文件,制作格式如下图所示: 这里解释一下,在你对HEATR1基因的30个样本排序之后,你需要自己设置一个表达量的阈值,高于这个阈值的则为高表达,低于这个阈值的则为低表达,这也就是cls表型文件最下面的名称的由来 最后另存为,保存类型一定要选择文本文件(制表符分隔)(*.txt),文件名则切换输入法为英文,然后在文件名里面先输入双引号,双引号里面填你需要的名字并加上.cls。比如我甜的格式就是: "cell_heatr1_high_low_cls.cls"
3. GSEA软件使用首先导入文件,点击左上角的Load data 导入方式有三种,一般按照喜好自己选择,这里我使用方式1,点击Browse for files,选择之前制作好的gct文件和cls文件,导入成功如下图所示: 接着点击左上角的Run GSEA,在弹出的窗口中,首先选择表达数据集Expression dataset,可以看到只有我们导入的gct文件,所以选择它即可 然后选择基因背景文件Gene sets dataset,我这里以kegg通路演示,具体根据你的需要来选择。 然后是置换检验的步数Number of permutations,默认选择1000,一般不进行修改,需要改的话根据你的需求自己改 接下来选择表型文件Phenotype labels,表型文件直接选择刚刚导入的即可,第3步选择分组对比,这里随便选一个即可,比如我选了Low分组,那么我后期得到的正向通路就会和Low基因比较正相关。
接下来选择是否要将基因转换为gene symbols格式,这里选择不转换 接下来选择置换检验的类型,一般样本量比较少时选择gene_set,该选项会影响结果的p值,所以选的时候注意一下 接下来是芯片平台Chip platform选择,因为我们不转换gene symbols文件,因此这里可以不要选择,如果要转化则要选择。该参数主要用来选择gene symbol与探针、或者gene ID相互对应的注释文件,当上边Collapse dataset to symbols参数设置不是No_Collapse时,此参数必须选择。这里,我们输入为gene symbol,因此不选 最后是基本设置,具体设置见下图 最后点击最下面绿色的箭头run即可,最终结果就会在刚刚设置的文件路径下。如图所示
GSEA单基因分析单基因分析步骤和分组基因步骤不同的地方就两点,其余的步骤参考分组分析。 基因表型文件Phenotype labels设置不同,具体操作见图片 至此,这里就设置好了 接下来是第二处不同,也就是基因排序参数的修改,一般选择pearson,代表是基于其他基因与该基因的相关系数大小排序。(如有需要可自行更改其它排序方法) 接下来是第二处不同,也就是基因排序参数的修改,一般选择pearson,代表是基于其他基因与该基因的相关系数大小排序。(如有需要可自行更改其它排序方法) 别的地方和分组分析都一样,设置完之后运行即可
|