分享

研究微生物群落的网络分析方法:小型综述

 微生信生物 2023-11-25 发布于北京

DOI:10.1016/j.csbj.2021.05.001
摘要
包括细菌、真菌、病毒、原生生物和古细菌在内的微生物作为群落生活在复杂且连续的环境中。它们参与许多界与界之间的相互作用,这些相互作用可以从微生物组分析数据中推断出来。特别是,基于网络的方法已被证明有助于破译复杂的微生物相互作用模式。在这里,我们概述了推断界间相互作用的最先进方法,范围从简单的相关性到复杂的基于条件依赖的方法。我们强调微生物概况中遇到的常见偏差,并讨论不同工具采用的缓解策略及其与增加的计算复杂性的权衡。最后,我们讨论了当前的局限性,这些局限性激励了进一步的方法开发,以推断界间的相互作用,并在未来稳健而全面地表征微生物环境。
研究背景
人体是由细菌、原生动物、古细菌、病毒和真菌组成的复杂微生物群落的宿主。事实证明,新一代测序技术通过对合适的分子靶标进行测序,例如细菌的16S核糖体RNA基因扩增子、真菌的核糖体RNA基因的内部转录间隔区以及病毒的鸟枪法宏基因组学,对于表征微生物群落非常有效(图1A)。由于这些生物体共享相同的宿主,因此它们处于持续的竞争中,其中一些生物体发展出共生关系,它们相互合作或协同以获得可能有益于或可能不有益于宿主生物体的适应性优势。迄今为止,微生物组研究主要集中在宿主与其微生物组之间的相互作用,主要是在细菌水平上。然而,细菌、真菌和病毒之间的跨界相互作用以及它们对宿主的共同影响直到最近才被研究。

图1(A) 细菌、真菌和病毒组的原理图概述。(B) 阐述了微生物共现网络分析中的三个重要偏差:组成性、稀疏性和虚假相关性。
基于网络的分析方法已被证明对于研究具有复杂相互作用的系统很有用,并且是系统生物学中推断基因调控和其他复杂网络的强大工具。例如,在人类肠道微生物组中发现的跨界数千个个体物种之间复杂的相互作用表明,这种网络分析方法在微生物组领域也很有用。在这篇综述中,我们首先重点介绍已成功用于从细菌丰度推断群落结构的网络分析方法。接下来,我们重点关注最近开发和重新利用的用于跨界分析的方法。最后,我们将讨论为什么需要在网络方法开发方面更加协调一致的努力来解决微生物数据的独特方面。
微生物群落的网络方法
到目前为止,细菌共现模式已被广泛研究,而真菌或病毒相互作用受到的关注较少。系统和网络生物学方法已被用来破译微生物共现模式,范围从相关方法到复杂的基于图形的模型。最近的一项调查地球微生物共现网络的研究确定了十四种不同环境之间的联系,包括植物、动物、水和土壤。因此,地球微生物共现网络凸显了使用合适的工具研究跨微生物生态位的微生物相互作用的重要性。
解码复杂的微生物共现关系涉及三个主要挑战。首先,微生物组数据是组合性的;即微生物计数代表比例而不是绝对丰度。其次,数据集中的稀疏性可能导致微生物的错误关联。零表示不存在微生物,或测序深度不足。第三,区分直接关联和间接关联具有挑战性,特别是如果这些关联与环境因素有关(图1B)。
基于相关性的技术,包括Pearson或Spearman相关性,是研究人类肠道、口腔和土壤微生物组中微生物相互作用的最流行的方法之一。Weiss等人评估了八种不同相关方法的优点和缺点,并根据数据的性质提供了建议,并将稀疏性确定为这些方法未充分解决的关键问题。相关分析通常会导致群落中低丰度微生物成员之间的虚假关联和虚假关联,因为它无法解释组成性。正如洛弗尔等人表明,基于相关性的方法在亚组成上并不连贯,例如,耗尽稀有类群预计会改变相关性分析的结果。为了克服这个问题,可以采用成分数据分析。已经提出了各种比例措施,其中一些在R包propr中实现,并且可用于网络构建。解释组合性的一种常用方法是中心对数比率变换(CLR),其中样本向量的几何平均值用作参考。CLR变换将相对计数从单纯形映射到欧几里德空间,从而使这些数据与线性分析方法兼容。除了这些经典方法之外,还提出了基于概率图、高斯图和复杂多元回归模型的更复杂的方法来构建微生物相互作用网络。大多数方法通过执行CLR变换作为预处理步骤或使用Dirichlet多项式模型直接考虑组合性来考虑组合性。现有方法在灵敏度、特异性和计算复杂性方面有所不同,可分为四个不同的类别(图2)。下面,我们描述了已成功应用于人类以及其他环境微生物数据分析的工具的基本概念(表1)。

图2 微生物界内和界间相互作用的网络方法综述

工具
原理/型号
优点
限制
应用
基于相关性的方法
SparCC(2012)python  rsparcc
来自对数转换丰度的皮尔逊相关性
贝叶斯方法用于区分真实分数与观察到的计数并处理稀疏性
对数比变换的丰度/计数矩阵
处理组合性偏差和稀疏性
由于迭代近似方法,计算复杂度较高
无法检测非线性关系
人类微生物组计划健康队列的肠道真菌微生物组与其他研究之间的相互作用,包括识别饮食和生活方式中的生物标志物、粘膜微生物组在胃癌发生中的相互作用等
CCLasso(2015)R包
采用L1-norm收缩法的潜变量模型
简单的伪计数实现
对数比变换的丰度/计数矩阵
比SparCC更快
处理组合性偏差
无法检测非线性关系
仅研究微生物组之间的成对相关性
被用来捕捉海洋光养生物和古细菌之间的相互作用
REBACCA(2015)
使用L1-范数收缩法的组合物对之间的对数比的线性系统
当满足稀疏条件时获得更高的精度
控制误报
适合大样本量

无法检测非线性关系
大样本量的渐近性能

S.  amnii、BVAB1、Prevotella  cluster 2和TM7-H1之间呈正相关,与早产相关。
它还有助于报告  TM7-H1与PTB关联的第一份报告
CoNet(2016)Cytoscape命令行工具

五种相似性度量:Bray和Curtis、Kullback-Leibler相异性度量、Pearson和Spearman相关性以及互信息
广义提升线性模型概要
能够构建双向网络

没有解决组合性偏差
仅研究微生物组之间的成对相关性

从植物、土壤到人类微生物组等生态系统的相互作用研究。
富含自闭症谱系障碍的F.prausnitzii、B.uniformis和B.vulgatus的鉴定
Meta-Network(2019)

使用Pearson相关性和基于图的方法FS-Weight方法的混合方法来研究间接关系
使用PCAPMI方法的非线性关联
用于检测集群和集线器的 MCODE  集群算法

可以识别间接相关性和非线性相关性
优于Spearman和Pearson相关性
 
没有解决组合性偏差
鉴定SyntrophomonasMethanogens之间的隐藏关系,在将短链脂肪酸转化为甲烷和能量方面发挥着至关重要的作用。
CorrelationCentric  Network(2020)命令行工具
以边缘为中心的网络
网络构建的皮尔逊相关系数
用于从物种-物种共现网络(SCN)导出相关性中心网络的同构映射
可以研究边缘分布的相关性
优于SCN
 
没有解决组合性问题
CCN从季节变化期间宿主饮食中衍生出微生物组网络的新视角。已鉴定
基因共表达和疾病个性化表征中生物标志物的鉴定以及时间序列人类肠道微生物组数据中的生物标志物
MENAP(2012)在线工具
基于随机矩阵理论(RMT)的分子生态网络分析
自动确定建网阈值
抗噪声能力强
没有解决网络稀疏性和组合偏差的问题
口腔细菌失调和口腔鳞状细胞癌(OSCC)中Fusobacterium高度连接簇的检测
土壤微生物结构研究
条件依赖/图形模型
gCoda(2017)R
逻辑正态分布克服组合偏差
多数化-最小化算法
使用L1惩罚的最大似然处理维度
SPIEC-EASI需要更少的计算时间
对成分数据有效
SPIEC-EASI相比更稳定、准确。
似然函数的非凸性
缺乏识别中心/关键物种
估计量缺乏一致性

MDiNE(2019)R
用于解决组合性质的狄利克雷多项逻辑正态分布
用于定义逻辑多项式正态模型的马尔可夫链蒙特卡罗(MCMC)方法
基于二元样本条件精度矩阵估计的微分网络
零处理,无需添加伪计数
处理组合性
运行时间高
仅支持单个二元协变量来构建网络
狄利克雷多项逻辑正态分布模型无法捕获正负协方差
鉴定新的生物标志物,例如肠杆菌科,在克罗恩病样本中更丰富,而毛螺菌科则更少
MixMPLN(2019)R
K多元泊松对数正态分布的混合
最小化-最大化原则
1-惩罚模型解决稀疏网络问题
从同一计数矩阵捕获多个网络
处理组合性
 
运行时比较和计算复杂性没有得到很好的解决。
能够重现和识别婴儿肠道微生物组与年龄较大的儿童和成人之间的变化
NetComi(2020)R
集成了考虑扩增子数据特殊特征的广泛方法列表:SparCCSPIEC-EASI、比例、SPRING
独特功能:差分网络分析
研究差分网络的能力
便于使用
来自单一生活领域的模型网络

环境驱动的边缘检测(2020)
符号模式、重叠、交互信息、数据处理不平等,以消除环境驱动的(间接)关联
能够从网络中识别环境驱动的(间接)关联(边缘)
目前ENDED仅支持任何封闭三元组,即(全连接)

Mint(2015)R
具有“1-惩罚模型”的泊松多元正态分层模型可捕获直接交互
控制混杂预测变量以消除间接相互作用
没有考虑微生物组数据的组成性质
无法检测潜在因素

mLDM(2016)R
具有稀疏约束的分层贝叶斯模型
处理成分偏差
能够检测直接关联并删除间接关联
可以估计微生物的绝对丰度
缺乏可扩展性和效率,计算能力高
分层贝叶斯模型消耗了大部分训练时间。
无法检测潜在因素

HARMONIES(2020)R包网络工具
使用零膨胀负二项分布和狄利克雷过程的混合方法
高斯图模型处理稀疏网络
处理过度分散和大量零计数
样本量小影响性能
与结直肠癌患者相比,在健康患者中发现了梭杆菌、消化链球菌和细单胞菌的独特亚网络
SPIEC-EASI(2015)R
输入的CLR转换
两种方法的选择:Glasso或邻域选择
处理构图
避免检测传递相关性
具有大中心节点的图更难恢复
无法处理协变量
植物、小鼠和人类等各种生态系统的相互作用研究。
研究病毒群体的相互作用,以确定人类肠道中的年龄依赖性模式
Hubs加权图形套索(2020)
加权套索方法,具有特殊的行/列总和权重来惩罚集线器
包括网络的结构信息以正确识别集线器边缘


FlashWeave(2019)
本地到全球的学习框架
调整潜在变量
更少的运行时间
在异构数据集上具有良好的性能
当应用于样本数较少的同质数据时,质量会下降
了解海鞘(一种海洋无脊椎动物脊索动物)核心微生物组之间的相互作用
COZINER(2020)
仅对非零计数值进行CLR转换
多元高斯障碍模型
组套索惩罚以获得稀疏估计
处理成分偏差和零通胀
高准确率


基于网络的跨界分析方法
SPIEC-EASI  Extension(2018)R
输入的中央对数比率变换
两种方法的选择:Glasso或邻域选择
处理构图
避免检测传递相关性
具有大中心节点的图更难恢复
鉴定真菌和细菌之间的关联,并阐明了在微生物组数据分析中纳入跨生物体相互作用的重要性
Multi-Omics  Factor Analysis R(2018)
来自一种或多种数据模式的标准化数据矩阵
贝叶斯组因子分析框架
自动相关性确定
整合多种数据模式和样本组并找到变化的驱动因素
假设线性或中等非线性关系
假设先验分布中的特征之间独立
抗生素扰动期间跨界之间复杂相互作用的识别
DIABLO  R(2019)
奇异值分解,从多个组学数据集中选择相关变量的“1-惩罚”
找到具有区分能力的相关特征
假设不同组学数据集的特征之间存在线性关系
血红素诱导的脂质过氧化对粘膜和肠腔稳态的研究中细菌分类群、代谢物和生理特征之间的相互作用研究

基于相关性的方法

许多基于相关性的方法采用皮尔逊或斯皮尔曼相关性的变体来获得对类群对之间微生物相互作用的估计。然而,这些措施并没有考虑到组成性,例如,仅一个类群的绝对丰度增加后,所有其他类群的相对丰度就会下降,即使它们的绝对丰度没有变化(图1B)。这可以通过数据的比率转换来缓解。比率变换可确保两个特征之间的比率相同,无论数据是绝对计数还是比例。对这些计数取对数使数据进一步对称且线性相关。因此,所得的相关系数在成分上是一致的,即两个类群的对数比完全独立于其他类群。成分数据的稀疏相关性(SparCC)是一种采用这种策略的流行方法,其应用范围从人类肠道微生物组研究到环境研究。SparCC基于迭代近似方法,并使用对数比转换数据来推断群落之间的相关性。假设底层网络是大规模且稀疏的。与直接Pearson相关性相比,SparCC被证明更适合避免虚假相关性,但代价是计算复杂性较高。为提高相关系数的鲁棒性而提出的另一种策略是CoNet中实施的引导。CoNet进一步采用相似性(Steinhaus、距离相关性)和相异性度量(欧几里德、Jensen-Shannon、Kullback Leibler、Bray Curtis)作为相关系数的替代方案。基于相关性的网络的另一个挑战是选择合适的相关截止值来控制所得网络的稀疏性。虽然截止值的选择通常留给用户,但分子生态网络分析管道(MENAP)通过基于随机矩阵理论的方法提供最佳相关阈值的自动选择,以模拟随机背景。
正则化线性回归
相关方法的另一种方法是建立线性回归模型,其中使用所有其他分类单元的丰度作为解释变量,将每个分类单元的丰度建模为响应变量。在这里,每个分类单元的系数充当两个分类单元相互作用强度的线性度量。但由于特征数量较多,此类模型一般容易出现过拟合。缓解此问题的常见策略是引入惩罚项,产生正则化回归模型。这里1-惩罚,也称为套索,通常用于将贡献可以忽略不计的类群系数驱动为零,从而增加解决方案的稀疏性。例如,通过Lasso(CCLasso)对成分数据进行相关性推断和基于成分数据的BAsis协方差正则化估计(REBACCA)使用这种策略来构建微生物组数据的正则化相关网络。CCLasso还采用CLR转换来解决组合性问题,而REBACCA对对数基协方差结构进行建模以直接考虑组合性问题。虽然CCLasso和REBACCA在再现性和一致性方面与SparCC相似,但正则化似乎有利于避免检测到虚假关系。除了现有的lasso方法之外,Bates和Tibshirani还提出了一种新的基于全对数比率的“1-惩罚回归模型”,用于稀疏估计。全对对数比模型克服了组合性,提高了准确性并提高了可解释性。此外,Lu等人引入了带有线性约束的“1-惩罚广义线性回归模型”(GLM),可实现子成分的一致性。
关联规则挖掘
元网络使用高级关联规则挖掘来检测复杂的(即包括间接和非线性)相关性,而不是正则化。为此,Meta-Network首先为每个样本生成存在-不存在指标矩阵。随后,计算分类群对的共现频率,产生共现概率矩阵。然后使用该矩阵构建一个共现概率为80%的网络(元网络中的默认阈值)。遵循这个宽松的定义,Meta-Network使用基于图的功能相似性权重(FS-Weight)算法来检测间接关系,并使用PCA-PMI方法(路径一致性算法)来推断非线性关联。这两种方法(FS-Weight和PCA-PMI)能够独立捕获许多相同的节点和边,据作者称,这表明它们都可以描述微生物关系的复杂性质。
条件依赖和图形方法
基于相关性的方法通常无法区分直接关联和间接关联。为了解决这个问题,开发了多种方法来模拟条件依赖性,这些方法通常比基于相关的方法具有更高的计算复杂性和运行时间。这里使用偏相关和相关方法来区分直接和间接相互作用,从而产生无向加权图,其中边缘暗示两个分类单元之间的条件依赖关系。大多数这些方法还可以解释生物协变量等混杂因素和测序深度等技术偏差。例如,Mint(Microbial Interaction)采用泊松多元正态分层模型来识别直接微生物相互作用,同时使用“1-惩罚精度矩阵”控制用户在多元正态层提供的混杂因素。
在对数据应用CLR转换以解决组合性之后,SPIEC-EASI(生态关联推理的Sparse InversE协方差估计)中实施了两种不同的策略。第一种方法通过估计稀疏逆协方差矩阵(使用Glasso进行稀疏图形模型推理)来生成图形网络,第二种方法采用Meinshausen-Bühlman方法,一种node wise回归模型。SPIEC-EASI通过使用正则化选择的稳定性方法推断网络的适当稀疏度。
许多方法都受到SPIEC-EASI的启发,并且它们在推断条件独立性时使用的模型大多有所不同。例如,gCoda还对相对丰度执行CLR转换,然后使用逻辑正态分布对计数进行建模,并使用带有“1-惩罚”的最大似然模型来处理稀疏性。据作者称,gCoda在稳定性、准确性和运行时间方面超过了SPIEC-EASI。
另一种方法,宏基因组对数正态-狄利克雷多项式(mLDM)提供了更复杂的三层分层贝叶斯模型。首先,mLDM使用多项分布对计数矩阵进行建模。其次,使用狄利克雷分布对多项概率进行建模,最后,mLDM利用多元对数正态分布对绝对微生物丰度进行建模。作者可以证明,与Pearson和Spearman相关性、SparCC、CCLasso、CCREPE、glasso和SPIEC-EASI相比,mLDM在寻找真正的类群-类群以及环境因素和类群关联方面表现良好。然而,这种多层方法导致高计算复杂性并限制可扩展性和可解释性。
通过利用稀疏性进行微生物组网络推理的混合方法(HARMONIES)采用零膨胀负二项分布(ZINB)和狄利克雷先验来处理过度分散和大量零计数。然后,与SPIEC-EASI(同时使用Glasso和Meinhausen-Bühlmann方法)和CClasso相比,HARMONIES使用图形套索方法来推断交互作用,并在合成数据上获得有利的结果,特别是在添加额外的零时。
大多数试图解决零膨胀问题的方法都会在对数转换之前引入伪计数。Ha等人讨论了引入伪计数可能会对下游分析产生巨大影响,并且还可能导致虚假关联,即忽略数据中完全不存在某些类群的事实。为了克服这个问题,Ha等人提出了一种新的组合零膨胀网络估计(COZINE)模型,在该模型中,他们生成一个二元关联矩阵和一个组合丰度矩阵,其中CLR仅应用于非零计数数据。然后将具有grouplasso惩罚的多元高斯障碍模型拟合到二元和连续矩阵的组合形式中,以推断三种类型的相互作用:二元-二元、二元-连续和连续-连续关系。通过这样做,COZINE试图同时适应组合性和零通胀。

根际互作生物学研究室 简介

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多