分享

BiB | 浙大蒋超组开发面向多组及纵向实验设计的各类组学数据的功能富集新方法

 宏基因组 2024-04-09 发布于北京

基于广义报告评分的富集分析可用于各类组学数据

Generalized reporter score-based enrichment analysis for omics data

Article,2024-03-27,Briefings in Bioinformatics, [IF 9.5]

DOI:https:///10.1093/bib/bbae116

原文链接:https://academic./bib/article/25/3/bbae116/7636146

第一作者:彭晨

通讯作者:蒋超, jiang_chao@zju.edu.cn

主要单位: 浙江大学生命科学研究院(Life Sciences Institute, Zhejiang University, Hangzhou, Zhejiang 310030, China)

2024年3月27日,浙江大学生命科学研究院蒋超实验室在Briefings In Bioinformatics 上在线发表了题为“Generalized reporter score-based enrichment analysis for omics data”的研究论文。该工作开发了面向多组学及纵向组学数据富集分析的Generalized Reporter Score-based Analysis(GRSA)方法及对应R软件包,这是一种灵活的,可用于复杂多组学数据的功能富集新方法。

- 摘要 -

富集分析将生物特征置于通路中,促进对高维数据的系统理解,在生物医学研究中被广泛应用。然而,大多数现有工具无法直接将富集分析应用于多组和纵向组学数据。新兴的基于报告评分富集分析(RSA)方法显示出卓越的敏感性,因为它依赖于p值而不是特征原始值,但由于缺乏适当的工具,它经常被误用。我们提出了面向多组和纵向组学数据的广义报告评分分析(Generalized Reporter Score-based Analysis,GRSA)方法。与其他常用的富集分析方法进行比较表明,GRSA在多个基准数据集上具有更高的敏感性。我们将GRSA应用于微生物组、转录组和代谢组数据,并在组学研究中发现了新的生物学见解。最后,我们使用 GRSA 在分类数据库进行富集,展示其应用不仅限于功能富集。我们开发了一个R包:ReporterScore,在其中实现GRSA,并与强大的可视化模块和可更新的通路数据库集成在一起(https://github.com/Asa12138/ReporterScore)。我们相信GRSA方法和ReporterScore包将成为生物医学研究领域中的宝贵资源。

- 关键点 -

·我们开发了广义报告评分富集分析(GRSA)和R软件包ReporterScore,将经典RSA的功能扩展到多组和纵向实验设计,并与各种类型组学数据兼容。

·与常用的富集分析方法相比,GRSA具有更高的灵敏度。我们在4个案例研究中证实了之前的主要发现,并获得了新的生物学见解。

·GRSA可以应用于各种分层和关系数据库,并执行自定义的富集分析,如物种分类富集分析。

- 引言 -

功能富集分析是一种常用的生物信息学方法,用于理解大型组学数据集(如转录组、宏基因组和代谢组数据)的生物学意义。通过识别富集的功能类别(如基因本体术语或生物通路),我们可以洞察底层的生物过程和功能,并提出下游实验研究的假设。功能富集分析方法(Table 1)可以根据统计方法大致分为三类:(i)过表示分析(ORA)、(ii)功能类别评分(FCS)和(iii)通路拓扑(PT)。Goeman和Bühlmann将富集分析方法根据底层零假设归类为“竞争性”或“自包含”。在“竞争性”方法中,将基因集与不在该集合中的所有基因背景进行比较,以评估统计差异水平是否超过背景水平;而“自包含”方法则分析每个基因集的孤立情况。

基于报告评分的分析(RSA)算法最初由Patil和Nielsen于2005年开发,用于识别与代谢网络的调控热点相关的代谢物。RSA近年来因其在微生物组研究中功能富集分析方面的扩展应用而重获青睐。RSA是一种基于报告评分的竞争性FCS方法,基于选择的统计分析的P值解析,没有先验截止值(无阈值)。其基本原理是,P值可以被视为标准化的统计量,反映了不同基因或特征之间的差异,而不受平均表达值的影响。与背景P值分布相比,具有显著较低P值的通路被认为是富集的。

然而,由于缺乏特定工具和对算法的系统理解,RSA经常被误用。尤其值得注意的是,经典RSA中每条通路的报告评分的符号(正负号)并不是表示通路表达趋势的增加或减少;而是报告评分(包括负值)低于指定阈值表示相应的通路未显著富集。这经常导致结果的错误解释。

受经典RSA启发,我们开发了改进的广义报告评分分析(GRSA)方法,并在R包ReporterScore中实现了该方法,还集成了全面的可视化方法和通路数据库。GRSA是一种无阈值方法,适用于所有类型的生物医学特征,如基因、化合物和微生物物种。GRSA可在mixed模式(经典RSA)和directed模式(增强RSA)下工作。directed模式使用报告评分的符号区分上调或下调的通路,所以更直观。重要的是,GRSA支持多组和纵向实验设计,因为它包含了与多组和纵向实验设计兼容的统计方法。ReporterScore包还支持自定义的分层和关系数据库,为高级用户提供额外的灵活性。在本研究中,我们描述了GRSA的全面实用性:我们在多个数据集上将GRSA与其他流行的富集方法进行了基准测试,并展示了GRSA在各种组学数据集上的应用。

- 结果 -

整体工作流程

Workflow overview

图1:ReporterScore包中GRSA的整体工作流程。

ReporterScore软件包内置KEGG通路、模块、基因、化合物和GO数据库,还支持用户定制数据库,使其与来自不同组学数据的特征丰度表兼容。完整的基因丰度表可用于特定物种的转录组学,scRNA-seq和基于基因的组学数据。对于涉及许多不同物种的宏基因组和宏转录组数据,可以使用KO丰度表。可使用KEGG官方比对软件生成KO丰度表,或使用Blast、Diamond与KEGG,EggNOG数据库进行比对。化合物丰度表可用于代谢组学数据的富集,但一般需要对化合物id进行转换 (例如将化合物id转换为KEGG id)。

ReporterScore包中GRSA的工作流程如图1所示,以宏基因组数据为例。GRSA使用KO丰度表(行为KO,列为样本)和metadata表(行为样本,列为实验设计组)作为输入。重要的是,不应该预先过滤输入数据以保留背景信息。首先,通过适当的统计方法计算所有ko的p值。然后,在mixed模式下,将p值直接转换为Z-score (图1A,公式[i])。在directed模式下,将p值除以2,转换为Z-score,并分配正负号,表示上调和下调的KOs(图1A,公式[ii-iv])。接下来是通过将通路内ko的z分数相加并除以ko数目的平方根,来计算通路的Z-score (Zpathj ) (图1A,方程[v])。通路的Z-score (Zpathj )由总KO池中随机抽样产生的背景通路Z-score分布进一步标准化(图1A,公式[vi])。标准化通路Z-score定义为通路的报告评分(ReporterScore)。

我们设计开发的ReporterScore包是用户友好的。reporter_score函数可以一步完成特性丰度表的报告评分计算。其中的各种可视化方法可用于探索整个通路和通路内的特征(图1B-H)。演示代码包含在补充说明中。

GRSA可应用于多组和纵向组学数据

Applying GRSA to multi-group and longitudinal omics data

GRSA的一个重要特征是新开发的directed模式。directed模式与mixed模式(经典RSA)的主要区别在于,在directed模式中,报告评分的正负符号表示通路的增长或减少趋势。相比之下,在mixed模式中,报告评分的符号不表示通路的趋势。我们在测试数据集上以两种模式(directed模式和mixed模式)进行了GRSA。在directed模式中富集的通路中,大多数KO具有相同的趋势。具有一致增加(减少)KO的通路将获得比背景更大(更小)的聚合Z分数。相反,如果通路内的KO具有相反的趋势,那么带符号的Z分数将互相抵消,导致结果不显著。与之相比,在mixed模式中,无法确定富集通路的增长和减少趋势。因此,directed模式有助于发现具有一致变化KO的通路。一些先前的研究旨在使用directed模式的结果,但错误地使用了经典RSA(mixed模式)。

GRSA的另一个主要优势是支持多组和纵向组学数据。ReporterScore包使用差异丰度分析或相关性分析计算组间每个特征的p值。Kruskal–Wallis检验或ANOVA评估特征丰度是否在多个组之间显著变化。默认的相关性分析将组分配视为有序的(例如,组'G1’、'G2’和'G3’将转换为1、2和3),因此相关性分析可以评估特征丰度是否呈线性增加或减少。此外,ReporterScore包还支持任何指定的模式。例如,如果期望出现指数增长趋势,可以将组'G1’、'G2’和'G3’设置为1、10和100。为了探索数据中的潜在模式,可以使用聚类方法,例如C均值聚类。

作为一般规则,用户必须确保所选的统计方法适用于数据集和实验设计。我们在多个基准数据集上使用不同的统计方法应用了GRSA。对于经典的两组设计,参数方法的Jaccard相似度超过了0.84,非参数方法超过了0.78,但参数方法与非参数方法之间的Jaccard相似度低于0.63。主要差异主要源于参数方法与非参数方法之间的差异。对于多组数据,如果目标是在组间显著改变的通路中富集,用户可以选择差异丰度分析。如果目标是富集显示一致增加或减少模式的通路,则相关性分析是首选。最后,GRSA还支持其他统计测试,例如'DESeq2’、'Edger’、'Limma’、'ALDEX’和'ANCOM’,以计算报告评分。

与其他常用富集分析方法相比,GRSA具有较高的灵敏度

GRSA showed higher sensitivity than other commonly used enrichment analysis methods

接下来,我们评估了GRSA的性能,将其与其他常用的富集分析方法在几个基准数据集上进行了比较。在某些情况下,基于通路拓扑结构的方法可能比非基于拓扑结构的方法更好地识别具有生物意义的通路。然而,基于拓扑结构的方法需要通路的全面结构,限制了它们在其他非人类生物中的应用。因此,我们将重点放在与非基于拓扑结构的富集分析方法的比较上。Nguyen等人提出了几种比较富集方法的策略,我们采用了他们的策略,并使用相同的通路数据库(KEGG v109.0)评估了GRSA与其他流行的富集分析方法的性能。

首先,我们比较了不同方法在识别与已知人类疾病相关的24个基因表达数据集中的目标疾病通路的能力。由于每个数据集都与特定的疾病相关联的KEGG通路(即目标通路),因此一个好的富集分析方法应该将目标通路排名在所有342个通路的前列,并且以较小的矫正p值富集目标通路。结果表明,在给定一个较小的排名给目标通路方面,PADOG、GSA、GRSA、GSEA和SAFE的表现相似,因为它们的中位数排名都落在前20%内。此外,GRSA实现了目标通路的最低中位数矫正P值。我们还使用了由'GSEABenchmarkeR’包提供的GEO数据集进行进一步的基准测试,并发现了类似的结果。总体而言,GRSA在无阈值的FCS方法中表现良好,优于传统的ORA方法。

接下来,我们评估了不同方法在检测基因敲除实验中受扰动通路的能力。在基因敲除实验中,敲除基因是已确认的扰动源。在这些假设下,我们可以计算方法的敏感性和特异性。GRSA在考虑的方法中显示了最高的中位数敏感性,尽管其特异性略低于其他方法。我们认为方法的敏感性更有意义,因为对于包含敲除基因的通路,敲除它应该会对通路产生相当大的影响;然而,对于不包含敲除基因的通路,鉴于通路和基因数据库的潜在不完整性,仅将这些富集的通路归因为假阳性可能并不总是恰当的。

最后,我们评估了不同方法富集具有生物意义通路的能力。我们比较了GRSA、竞争工具和两者都富集到的通路的比例,以所有显著通路的数量作为分母。在这些数据集中,GRSA一致识别出比ORA方法更多的通路,并且与GSEA的重叠程度很大。例如,在肾细胞癌数据集中,仅有GRSA富集到与细胞因子-细胞因子受体相互作用、IL-17信号和PI3K-Akt信号相关的通路。因此,GRSA具有识别出与研究的疾病相关的更多生物学上相关通路的潜力。

图2:GRSA与其他常用富集分析方法的比较。

(A-B)箱型图显示了在24个基因表达数据集上通过多种方法得到的目标通路的排名(A)和矫正p值(B)。

(C-D)箱形图显示了多种方法在9个野生型/敲除基因表达数据集上的敏感性(C)和特异性(D)。数字表示每种方法的中位数。

案例研究1: 皮肤微生物群的功能分析和与年龄相关动态

Case study 1: the functional analysis and age-related dynamics of the skin microbiota

接下来,我们展示了GRSA在不同类型组学数据中的应用。对于微生物组数据,我们收集了由Wang等人发表的IHSMGC(综合人类皮肤微生物基因目录)数据集,并使用GRSA方法重新分析了数据。先前的研究通过合并通路内特征的丰度来计算通路丰度,然后进行差异丰度分析。我们应用GRSA来探索两种cutotype之间的功能差异,结果基本一致。例如,与M-cutotype相关的模块,如硫胺素、叶绿酸和维生素B12的生物合成模块在M-cutotype中富集,而与四氢叶酸、维生素K2、泛酸和辅酶Q相关的模块在C-cutotype中富集(图3A)。此外,M-cutotype中富集了大量与硫、苯乙酸酯(芳香化合物)和氨基酸代谢相关的模块,而C-cutotype则富集了与碳水化合物代谢相关的模块。重要的是,GRSA还确定了先前研究中未发现的通路。例如,M-cutotype富集了与核苷酸代谢相关的模块,如嘧啶的降解和新生物合成,表明M-cutotype微生物群可能具有更高的核苷酸周转率和更强的增殖能力。

先前的研究将样本分为五个年龄组,并发现M-cutotype的患病率随着年龄的增长显著增加。然而,他们没有进行与年龄相关的功能分析。我们使用GRSA重新分析了多组数据,以探索与老化相关的功能动态。较大的正报告分数表明该模块在年龄方面总体呈增加趋势,例如与脂多糖A生物合成相关的'M00866'(图3B),而具有负报告分数的模块显示总体呈减少趋势,例如与D-葡萄糖醛酸降解相关的'M00061'(图3C)。我们接下来分析了KEGG B级别的功能模块的时间趋势(图3D),这更好地反映了微生物组的总体代谢活动。我们发现皮肤微生物组的碳水化合物代谢活动随着年龄的增长而减少,而脂质、氨基酸和核苷酸代谢活动随着年龄的增长而增加。这些结果表明,随着年龄的增长,皮肤微生物组的能量来源发生了显著变化。

与年龄相关的维生素生物合成相关的功能模块也显示出差异(图3D)。对于糖类代谢相关的功能模块,KDO2-脂多糖和CMP-KDO的生物合成随着年龄的增长而增加。此外,我们发现几种硫酸基硫酸聚糖(软骨素硫酸、皮肤酸硫酸和角质硫酸)的降解途径在老化皮肤中减少。老化皮肤中总硫酸基硫酸聚糖的含量减少,可能导致皮肤微生物组对硫酸基硫酸聚糖的降解能力降低。

图3:GRSA在IHSMGC数据集皮肤微生物组中的应用。

(A)富集于M型(绿色)和C型(蓝色)的KO-Module网络。图中只展示了与维生素生物合成相关的KEGG模块。大点代表模块;小点代表ko。小点的颜色代表ko是否显著差异。阴影包围的点表示参与同一种维生素生物合成的模块。阴影颜色表示富含M-cutotype(绿色)或富含C-cutotype(蓝色)的模块。

(B-C)模块“M00866”(B)和“M00061”(C)在不同年龄组的趋势箱线图。线条的颜色代表了KO在模块中相对丰度的趋势。“M00866”的正报告评分最大(增加),而“M00061”的报告评分为负,且绝对值最大(减少)。

(D)柱状图展示了随着年龄的增长被显著丰富的模块;报告评分阈值为2.5,对应的置信度约为0.995,这些模块根据KEGG进行分组。颜色表示随着年龄增长而上调(红色)或下调(绿色)的模块。

案例研究2: 心肌细胞分化过程中的功能转录动力学

Case study 2: the functional transcriptional dynamics during cardiomyocyte differentiation

我们将GRSA应用于Liu等人2017年发表的转录组数据集。该研究使用加权基因共表达网络分析(WGCNA)方法分析了2个hiPSC系列和2个hESC系列在4个时间点(多能干细胞第0天,中胚层第2天,心脏中胚层第4天和分化的心肌细胞第30天)的转录组变化。在所有细胞系的四个分化阶段观察到了显著变化。例如,模块1中的基因仅在分化的心肌细胞(CM阶段)中高表达,其富集的生物学过程的基因本体学(GO)术语与心脏功能相关,例如心脏收缩的调节和肌肉系统过程。WGCNA不假定趋势是线性的,因此基因在中胚层发育的第2天可能仅在第2天高表达。

除了线性增加或减少的趋势外,GRSA允许用户指定任何预期的趋势进行丰富分析。首先,我们使用模糊C均值聚类方法识别主要的基因表达趋势(图4A),然后使用这些趋势进行GRSA,在每个趋势中获得显着富集的通路(使用ReporterScore包中的RSA_by_cm函数)。例如,“心脏过程(GO:0003015)”是Cluster 6的显着富集的GO术语,该术语仅在CM阶段(第30天)中高表达。我们确定了许多与Cluster 6的表达趋势一致的基因(图4B)。

所有Cluster的GRSA结果如图4C所示。Cluster 2仅在第0天高表达,并且其富集的GO术语主要与有关干细胞自我更新过程的有丝分裂细胞周期相关。Cluster 5在第2天的表达水平最高,并且主要富集于各种转录和翻译过程。Cluster 4在第0天和第2天高表达,并显示逐渐减少的趋势;其功能与Cluster 2和5重叠。Cluster 1在第4天高表达,与中胚层形成相关,例如形态发生和器官发育。Cluster 3和6主要在分化的心肌细胞(CM阶段)中上调,并且与心脏功能相关,例如心脏收缩的调节和肌肉系统过程,与先前研究中的模块1类似。有趣的是,hiPSCs/hESCs在第2天(Cluster 5)诱导了各种RNA相关的代谢,这在先前的研究中没有发现,表明复杂的转录调控参与了进一步的中胚层形成。因此,使用跨组识别的表达趋势,我们成功地确定了对心肌细胞分化过程的不同阶段重要的通路和模块。

图4:GRSA在心肌细胞分化过程转录组数据集中的应用。

(A)四个分化阶段基因丰度谱的c均值聚类结果。每条线的透明度与其membership相关,y轴表示标准化丰度。

(B)箱形图显示了“GO:0003015”(心脏过程)在四个时间点上的基因丰度;线的颜色表示每个基因与Cluster 6在GO项内的相关显著性。'GO:0003015’是Cluster 6的代表性术语。

(C)柱状图显示了每个与分化阶段相对应的聚类趋势的GO项显著丰富。条形图的颜色表示聚类信息,并显示每个聚类中报告评分较高的代表性GO术语。左侧的文本标签根据具有最高表达的阶段上色。总的来说,Cluster 2对应第0天,Cluster 4和5对应第2天,Cluster 1对应第4天,Cluster 3和6对应CM。

案例研究3: 与孕龄相关的母体系统性代谢组变化

Case study 3: the systematic maternal metabolomic changes correlated with gestational age

接下来,我们将GRSA应用于丹麦妊娠队列的代谢组学数据,该队列中的女性参与者在从妊娠到产后期间每周抽取血液进行非靶向代谢组学分析。他们以妊娠周龄为研究变量,建立了一个代谢时钟,并发现几种标记代谢物的含量与妊娠周龄呈线性增加趋势。

我们发现随着妊娠周龄的增加,几个重要的通路上调:类固醇激素生物合成、皮质醇合成和分泌以及卵母细胞减数分裂(图5A)。随着妊娠周龄的增加,多种类固醇激素上调(图5B),包括与下丘脑-垂体-肾上腺轴相互作用的孕酮和胎盘产生的雌三醇-16-葡糖苷。同时,两种与雄激素相关的类固醇激素下调:硫酸脱氢表雄酮和雄甾酮3-葡糖苷,因为雄激素的浓度在妊娠期间发挥着重要的生理功能。我们还发现,与芳香族氨基酸代谢相关的通路随着妊娠周龄的增加而下调(图5A)。

重要的是,我们还确定了几个与人类疾病相关的上调通路,这些通路在先前的研究中没有提及。当身体长时间过量产生激素皮质醇时,会发生库欣综合征,而健康的妊娠可能会诱发这种病症。与乳腺癌相关的通路上调也很明显,因为妊娠相关乳腺癌(PABC)占所有年轻女性乳腺癌的7%。如果代谢物-通路数据库得到改进完善,可能会有更多的潜在发现。

图5:GRSA在丹麦妊娠队列代谢数据中的应用及IHSMGC数据集的物种富集分析。

(A)珠包图显示了代谢组学研究中GRSA发现的显著富集通路的层次关系。圆圈的大小表示报告评分的绝对值,圆圈的颜色表示报告评分的符号。正报告评分表示该通路增加(橙色),负报告评分表示该通路减少(紫色)。

(B)热图显示了“类固醇激素生物合成”途径中代谢物的丰度。列是按孕龄递增排序的样本。

(C)柱状图显示分别在C-cutotype和M-cutotype显著富集的属。

(D)网络图显示了g_Moraxella和g_Cutibacterium中富含M-cutotype(绿色)或C-cutotype(蓝色)的物种。

案例研究4: GRSA在功能富集分析外的拓展应用

Case study 4: the application of GRSA beyond functional enrichment analysis

GRSA算法可以将任何组织在层次关系中的特征用作富集数据库。例如,我们可以利用微生物的系统发育关系,如属-种关系,进行物种分类富集分析。我们使用了IHSMGC数据集的物种丰度表,并查找了在两种cutotype中富集的属。我们发现在M-cutotype中富集的有Psychrobacter、Paracoccus、Chryseobacterium、Elizabethkingia、Deinococcus和Microbacterium,而在C-cutotype中富集的有Acidipropionibacterium、Staphylococcus、Corynebacterium和Cutibacterium(图5C),其中一些与前期研究中通过共存网络发现的差异物种模块高度一致。然而,我们额外发现了一些属,如Brevundimonas和Rhodobacter,在M-cutotype中富集,而Pahexavirus(丙酸杆菌和皮脂杆菌的噬菌体)在C-cutotype中富集(图5C),可能由于GRSA具有更高灵敏度。

在先前研究中,使用了两种物种Moraxella osloensis和Cutibacterium acnes来定义cutotype。有趣的是,虽然Cutibacterium属在cutotype之间是一个很好的生物标志物,但Moraxella属不是,因为包含的物种没有共享相同的趋势(图5D)。因此,除了功能富集分析外,GRSA还可以扩展到任何层次关系数据结构。

- 讨论与结论-

我们开发了ReporterScore软件包,并展示了GRSA富集分析在各种组学数据中的广泛应用。我们改进了经典的RSA方法,以便更容易解释报告评分的加,减号意义。更重要的是,我们将GRSA的范围从两组实验设计扩展到了多组和纵向实验设计。我们通过代谢组、转录组和代谢组数据的案例研究证实了这些新特性(图3-5)。最后,我们表明GRSA不仅限于功能富集分析。文中所有分析图示都是使用ReporterScore软件包中的可视化模块生成的。

GRSA考虑了通路中涉及的所有特征值,而不是像超几何测试那样仅考虑预定义的列表(例如P值<0.05的KO/基因),因此,GRSA更为敏感,可以全面评估通路中的特征丰度差异(图2)。然而,GRSA仍然存在一些局限性:(1)GRSA显示出稍低的特异性,强调了需要额外的实验验证的必要性。(2)GRSA依赖于从P值导出的Z分数作为统计量,这取决于上游的统计方法。用户需要根据数据的性质和实验设计选择合适的统计方法。(3)GRSA是一种基于关键假设的竞争性富集分析方法,其假设特征具有独立性。

我们必须承认,比较富集分析方法存在着风险,因为尽管不断努力,该领域尚未建立起明确的黄金标准。许多综述通常使用疾病数据集来评估基于优先级或表型相关性的方法。我们使用统计方法的排名和P值来评估我们比较中的优先级,假设有一个单一的真阳性:目标疾病相关通路。然而,像癌症这样的疾病会对复杂的生物系统造成重大干扰。对于某些疾病,许多不同的通路可能会受到不同程度的影响,有时甚至会比目标通路更受影响。

我们使用基因敲除实验数据集来评估灵敏度和特异性,参考了Nguyen等人的方法。我们认为灵敏度是评估富集方法的关键指标,因为有效的富集方法应该最大程度地识别预期的通路。数据库中记录的基因-通路关系通常有实验证据支持,使得真阳性和假阴性的定义更加合适。因此,灵敏度可以有效地评估。相比之下,由于生物系统的复杂性导致数据库的不完整性,很难定义真阴性和假阳性。例如,敲除的基因可能通过尚未发现的信号通路影响某个通路A,这在分子生物学研究中经常发生。因此,方法的特异性无法准确评估。此外,功能富集分析的主要作用是引导解释组学数据。额外的实验验证对于证实分析结果至关重要。

多组学研究日益普遍,对所有类型组学数据的功能富集分析的需求也在增加。GRSA适用于所有类型的组学数据,只要有相关的关系数据库即可。正如案例研究所证实的那样,我们验证了以前的关键发现,并获得了新的生物学见解。例如,将GRSA应用于IHSMGC数据集上,表明老龄化和年轻皮肤微生物组之间存在不同的功能剖面。KDO2-脂多糖和CMP-KDO的生物合成增加,而几种硫酸酯类糖胺聚糖的降解通路在老龄化的皮肤微生物组中减少,这可能与皮肤生理特性的变化有关。进一步的研究需要探讨潜在的机制及其对皮肤健康的影响。将GRSA应用于心肌细胞分化的转录组数据显示,hiPSCs/hESCs在第2天专门从事各种RNA相关的代谢,这表明在进一步的中胚层形成中涉及复杂的转录调控。最后,将GRSA应用于丹麦孕妇队列的代谢组数据,显示随着妊娠年龄的增加,与人类疾病相关的几条通路被上调,包括Cushing综合症和PABC。

GRSA提供了用户指定趋势的选择,用于富集分析,允许在复杂的多组研究中快速测试知识假设。这在我们对心肌细胞分化过程中转录组数据的分析中得到了证实。GRSA提供了功能富集分析以外的拓展应用。将GRSA应用于IHSMGC数据集的分类富集分析中,发现了在两种不同cutotype之间存在显著差异的关键属。结果与以前研究中的微生物共现网络分析高度一致,但进行GRSA比网络分析更容易和更快速。

总而言之,我们相信GRSA和ReporterScore软件包可以极大地促进多种组学数据的功能富集分析。ReporterScore包中GRSA具有更高的灵敏度、与多组和纵向设计的兼容性,以及对自定义数据库的灵活性,用于功能富集分析之外的拓展应用。在未来,我们将加入额外的内置数据库和可视化方法,同时不断维护和更新ReporterScore软件包。

参考文献

C. Peng, Q. Chen, S. Tan, X. Shen, C. Jiang, Generalized Reporter Score-based Enrichment Analysis for Omics Data. 

Briefings in Bioinformatics (2024). https:///10.1093/bib/bbae116.

- 作者简介 -

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多