最近Nature Protocol发表的一篇 “Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap” ,里面提了关于实验设计的12条建议,我翻译了一下(如果觉得哪里读不懂,一定是我翻译的不好,建议阅读下原文)。通路分析的好坏取决于你实验设计的好坏,我一致坚持认为'garbage in, garbage out'。要是实验设计太差,那么你可能得到由于试验偏误或者其他混淆因子产生的无意义结果。下面就是作者给出的关于试验设计的一些建议。 试验条件 实验条件必须定义为主要的观测变化,通常是实验者感兴趣的和生物学相关的处理。例如肿瘤和正常组织,处理和未处理,比较不同的疾病亚型,或者时间序列等。 重复数 实验重复非常重要,尤其是生物学重复,请至少做3个生物学重复吧。对于哪些变异特别大的设计,比如说肿瘤样本,请提供更多重复吧。 混淆因子 我们应该尽量避免和实验无关的因素或者至少在不同条件下达到平衡,这样次啊能保证利用了广义线性模型的统计学方法能够对这些因子进行矫正。常见的混淆因子如测序深度, 核酸提取流程 和年龄等。尽管我们不可能完全地在实验设计中将试验信号中混淆因子分离,但是提前知道可能的因素有助于提高试验设计。统计学方法中的聚类和PCA分析可以帮助我们找到这些未知的因素。例如,实验组和对照组应该离得远远的,而不会因为批次效应聚在一起。 离群值 离群样本指的是和其他样本差异过大的样本,一般是实验问题或者技术问题造成,比如说污染或者混样。当然,也有可能是极端生物学现象,比如说肿瘤样本有异常扩增的表型。我们可以用PCA或者无监督聚类的方式找到这种离群值。通路分析可以在有无离群值的情况下的进行,确保分析结果的鲁棒性。系统性移除离群值有助于降低实验的变异度。 试验敏感度 一些实验方法的敏感度会发生变化。举个例子,对于基因表达定量分析,显然测序深度越高,重复数越多,得到的差异表达基因也就越可靠。虽然大部分人没有钱测5个样本,但是3个还得保证吧。如果你研究可变剪切,那么对你的测序深度要求就更高了。 选择通路基因集数据库 考虑到通路分析结果可读性,作者建议先用如下的通路基因集进行分析,GO的BP(biological process), Reactome的人工审校分子通路(molecular pathways), 对于人类,Panther, HumanCyc和NetPath都是很好的资源。(GO的BP注释包括人工审校结果和电子注释) 根据证据代号过滤GO通路 许多自动化数据分析得到GO基因注释并没有得到人工审查,因此它们的证据代号(evidence code)登记为IEA (inferred from electronic annotation). 早期文献对这些数据非常谨慎的解释这些IEA标识的基因。但是近期研究发现,这些IEA GO注释结果和人工审查的数据一样可靠。如果你研究的是模式动植物,那么建议你分别比较过滤IEA和不过IEA的富集结果,来提高你结果的可靠性。如果是那些研究一般的物种,那么你也只能把IEA注释加上了。移除IEA标记的注释还可能对那些研究比较深入的生物学过程造成影响 如何使用非通路基因集 可以使用不同类型的数据集来解释不同的问题,但是请分开分析,也就是不要在一次通路分析中加入各种各样的基因集,这样子会由于多重试验矫正导致假阴性的提高。 选择合适的基因集大小 对于那些基因数不怎么多的通路,作者建议在分析中排除。一般而言,这些通路相对较大的通路是冗余的存在,而且在后期解释比较麻烦,甚至还会让多重试验校正更加严格。对于那些基因数很多的通路,作者同样建议移除,毕竟类似于metabolism 的宽泛概念在最后的解读中也没啥意义。 如果分析人类表达量数据,作者建议剔除基因集小于10\~15的基因和大于200\~500的基因,有些文献会把上线提高到200\~2000。(PS: Y叔从clusterProfiler的最小值是10,最大值是500)。 对于非人类物种或者非表达量数据,由于不同的通路的研究程度不尽相同,所以集合的大小可以按需调整,但需要有文献或者试验的支持。一个比较好的做法是,看其中几个和试验相关的通路的基因集数目来确定上下限。 使用最新的通路数据集 富集分析结果依赖于分析中使用的基因集,最多许多研究用到的通路分析严重的收到了过时资源的影响。为了提高研究的可重复性和透明性,研究者需要在文献中标明分析日期,富集分析软件版本,用到的基因集数据库和分析参数。研究者最好把自己分析基因表和完整的富集通路表列在附件中。 选择基因标识符 在不同的数据库中,基因可能会有不同的标识符(ID)。这些基因标识符可能会出现冲突,甚至还会过期。对于人类,作者推荐使用Entrez基因数据库的编号,或者是HUGO Gene命名委员会的官方符号。由于基因符号会随时间变化,因此要对同时维护基因符合和Entrez基因iD。 g:Profiler和g:Convert工具能够实现多种基因编号到标准标号的转换。 非预期通路结果和试验设计 如果在你的通路分析中得到一些意外结果,这或许意味着你的试验设计、生成数据或分析出现了问题。举个例子,细胞凋亡(apoptosis)通路富集意味着实验的某些步骤导致了过多的细胞死亡。因此,你需要对你的实验过程进行调整,重新获取数据,用于后续分析。 我对选择合适大小的基因集阈值这部分收获最大,我一直以前用默认值,结果排名前几的结果都是太宽泛的词条,现在想下其实可以改下参数更好进行结果解读。 |
|