分享

GSEA分析常见问题答疑

 萌小芊 2018-04-09

在上期《GSEA分析方法原理解析与实操教程》课堂中,周老师介绍了GSEA分析方法原理并进行了GSEA分析软件的操作演示,并在课堂上逐一解答了大家提出问题。下面是问答整理,希望对于刚接触GSEA的同学会有帮助。


1.什么情况下需要预排序?

 

答:预排序主要满足一些个性化的需求。例如,如果我想用p值来排序,但软件没有提供按p值排序的算法,这时候就需要预排序。

 

2.不做预排序可以吗?

 

答:当然可以,如果软件提供的几种模式能满足你的需求,也可不做。


3.rnk文件具体怎么做?

 

答:所有的文件实质上是txt文件,不同的扩展名只是软件识别文件中是什么数据用的。用Excel另存为制表符分隔的txt文件,然后修改下扩展名即可。


4.四个排序文件都是自己做的吗?

 

答:很多情况是需要的,假设研究对象为人,表达量文件得自己做,名称要改成symbol号;分组信息要自己做,因为要自己定义分组;预排序要自己做;代谢通路的分类理论上要自己做,官网上可以下载,但如过基因名称与官网不一致或研究对象不是人的话,也要自己整理,当然测序公司一般会提供。

 

5.常规RNA-seq分析中是把所有的基因的表达量结果放进去让软件排序富集好,还是把其他差异分析软件输出的差异基因预排序分析好呢?

 

答:大家注意了,这个方法是不做预筛选的分析方法,要用所有基因而不能用差异基因去做分析。

 

6.老师,您刚说用所有结果做分析,那么一个RNAseq里有几万个基因都要一起扔进去吗?

 

答:是的,比如研究水稻,有4万个基因,4万个基因都要放进去。


7.医学方向的基因集都是文章发表,实验验证的,我们自己整理的基因集,发表的时候会被认可么?

 

答:当然会,前提是你自己整理的基因在集逻辑上是合理的,比如说挑免疫相关的转录因子的基因集,然后做GSEA,结果是显著的,这说明实验处理与免疫相关的转录因子是相关的。

8.Number of permutations 电脑只能设置是10,设置到1000就报内存错误了。

 

答:因该是电脑内存太小的问题,建议换内存大一点的电脑做。


9.“Full Error Message: After pruning, none ofgene sets passed size thresholds“这是什么错误老师?

 

答:说明你的基因集都不在15-500之内,很可能gene ID有问题,gene ID 前后不一致导致不能一一对应。


10.我的数据第一列不是Genesymbol,而是染色体位置,想请教一下老师哪里可以转换?

 

答:这个无所谓,基因叫什么不重要,只要保证表达量文件和基因集文件中的gene ID一一对应就可以了。


11.最终的ES得分的极值和位置到底能说明什么呢?

 

答:类似做传统富集分析,某种程度上,ES值越高,越显著;对于位置,极值在前面出现表示与表型正相关,极值在后面出现为负相关。


12.老师那个permutationtest怎么没看到?不应该有一个线?

 

答:Permutation test是应该有阈值线的,但软件并未展示阈值线在什么位置,可以不用管。软件结果以FDR<0.25为标准给出了gene set,="" 当然也给出了nom=""><>

 

13.Phenotype labels 什么时候处理组在前,什么时候在后?

 

答:其实,在前在后实际上没有影响,软件处理数据是前面减去(或除以)后面,一般来出处理组在前更合乎逻辑。

 

14.如果把一组相关基因设置为基因集,富集出来可能有几条通路,请问这个结果怎么解释呢?

 

答:如果只提供一个基因集,那富集出来的通路只有一条,注意,这个富集方法是解析你关注的某个基因集在所有基因排序中的排名是更靠前或更靠后的,你输入几个基因集,就会输出多少条通路的,但这些通路也不会都是显著的。

 

15.如果是ALL VS AML ,那么在AML中富集 的 都是负的?

 

答:ALL vs AML,则是ALL减去或除以AML,认真看下课件中的算法就理解数值是怎么来的。

 

16.或者是结果里面的那个指标表示那个置换检验?

 

答:结果里边是不包括置换检验的,但给出置换检验的结果(如p值),不必纠结。

 

17.那最后的结果还是根据Q值小于0.05来选择显著富集的通路?

 

答:对,一般还是按照q值小于5%作为标准的,这和传统富集分析的结果是一致的。

 

18.CORE ENRICHMENT的YES和NO表示什么?

 

答:表示是否显著富集。

 

19.老师,数据里的0或者--,需要删除吗?里面有很多的lncRNA也需要删除吗?

 

答:需要删掉。如果关注编码基因富集的话建议把lncRNA剔除掉吧,lncRNA加进来的话可能会产生很多噪音数据,因为基因集的分类主要是以编码基因为标准的。

 

20.我同时用了C2 和h 基因集的结果放到文章里,可以吗?

 

答:可以,怎么富集都是可以自己定义的。

 

21.我都是用差异基因做的,也可以做出来,可以用吗?

 

答:虽可做出来,但方法是不对的,不应该用差异基因,要用所有基因。

 

22.通路显著除了看q值,ES值是不是也需要大于特定值?

 

答:只要看q值就可以了,ES值可不用看,就像t检验看p值就可以了,不会关注t值的。

Tips:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多