分享

微生物组多组学网络分析:统计考虑因素、局限性和机遇(上)

 微生信生物 2024-01-15 发布于北京

DOI:10.3389/fgene.2019.00995
关键词:组成性、异质性、微生物组网络、多组学数据集成、网络分析、标准化、稀疏性
摘要
对微生物组数据进行建模并将其与其他数据结构整合所需的分析方法仍然处于萌芽阶段。这种新兴的分析工具集经常移植其他多组学研究中开发的技术,特别是通过网络集成和表示数据的不断增长的统计和计算技术。虽然网络分析已成为一种强大的微生物组数据建模方法,但通常通过将这些数据与其他类型的组学数据整合来辨别它们的功能联系,但所应用方法的统计细节是否与假设一致并不总是显而易见的微生物组数据或它们如何影响数据解释。在这篇综述中,我们概述了一些最重要的综合分析网络方法,重点介绍了已经应用于或具有巨大潜力应用于微生物组数据多组学整合分析的方法。我们比较各种统计工具的优缺点,评估它们对微生物组数据的适用性,并讨论它们的生物学解释性。我们还强调了微生物组数据综合网络分析持续存在的统计挑战和机遇。
研究内容
网络可用于逐项列出社区成员之间、社区之间以及社区成员与某些协变量集之间的交互。它们提供了微生物组成员或其环境之间信息如何流动的映射。越来越多的研究利用多组学网络来推断微生物类群如何与其特征相互作用。多组学数据的整合有可能解决微生物组的功能机制。数据整合网络可以阐明分类单元相对丰度的变化如何与微生物群落中的基因表达、代谢物库或微生物组宿主的表型相关。大多数研究都应用相关性(例如Spearman秩相关)来解析与特定环境或宿主特征相关的微生物分类群。这种简单的统计方法不一定满足微生物组数据的假设或解决此类数据产生的问题的需要,并可能产生不准确的结论。
网络概览
推断的边缘本身并不意味着特征之间存在因果依赖性,其推断需要受控实验。如果关联的强度不同,则可以对边缘进行加权以说明关联的强度并指导解释。根据研究设计,在许多基因组研究中推断因果关系可能具有挑战性或不可推断。在这些情况下,关系的方向性可能会根据已有知识进行预设,以构建一个二分网络,或者使用概率框架中的数据进行推断。
在本文中,表示与每种数据类型相对应的组件的变量将被称为“特征”。来自不同类型组学数据的变量被认为属于不同的“特征类型”。特征类型的示例包括但不限于微生物组分类学、转录组学和代谢组学特征。这些特征类型内的相应特征可以包括微生物分类群的丰度、基因的表达水平和代谢物的浓度。当考虑不同特征类型之间的关联时,可以使用二分网络,其中在不同类型的节点之间绘制边。或者在单一类型的特征之间构建网络,其中来自另一种类型的数据作为附加信息或协变量并入分析中,以改进网络的估计。
一旦根据数据估计了网络,就可以在网络上量化许多指标,以总结系统的整体结构。使用的主要指标之一是度,具有较高度的节点表示与正在建模的系统中的其他特征相对高度相关的特征。这些节点可能对系统的动态有更大的影响,并且可能代表群落中的关键类群。大多数现实世界的网络具有右偏度分布,其中大多数顶点具有低度,很少有高度。当度分布在其整个范围内单调递减时,它具有幂律分布,被称为无标度网络。在无标度网络中,某些节点的度数可能明显高于其他节点。这些节点通常被称为“中心”,它们是网络交互的重要参与者。识别重要节点的另一种方法是通过介数度量。为了计算介数,首先确定网络中每对节点之间的最短路径。然后,每个节点的介数被测量为所讨论的节点位于两个其他节点之间的最短路径中的次数。介数高的节点在网络中具有潜在的影响力。高介数节点通常被解释为网络中信息流的瓶颈。
审查可用的基于网络的程序
在本节中,回顾基于网络的统计方法,重点关注其在多组学数据集成中的应用。将常用的方法分为六种类型,并对每种类型进行详细的回顾。表1总结并比较了六种方法以及支持其实施的软件包。
表1可用的基于网络的程序的摘要。

方法类型

网络类型

代表性方法

优点

缺点

边际相关分析

无向

Pearson相关、Spearman等级相关、Kendall tauRbase);局部相似性分析(LinuxELSA);WGCNARWGCNA

易于实施;可用的非参数选项

由于混杂因素,可能会出现虚假结果

降维方法

通常是无向的

PCA(R:  base);CCA(RCCA);PLS(Rpls);CIA(Rade4); 稀疏CCA, 稀疏多重CCA(RPMA); 稀疏PLS (Rspls); 稀疏CIA(RpCIA); 内核PCA,内核CCA(Rkernlab)

可用于构建连接功能模块的网络

可解释性较差,因为每个节点代表多个(如果不是全部)特征

基于回归的方法

有向或无向

线性和广义线性模型(Rbase);线性和广义线性混合模型(Rnlmelme4);正则化回归:Lassoridgeelastic netRglmnet)、SCADMCPRncvreg)、Group lassogroup elastic netgroup SCADgroup MCPRgrpreg);正则化多元回归:图引导融合套索(R: GFLASSO)remMap (R: remMap)、降阶回归(R: rrpack)

易于合并协变量;有大量的统计方法和软件工具可供使用

需要将每个特征指定为响应变量或预测变量

图形模型

无向

图形套索(Rglassohuge);邻域选择(Rhuge);联合图形套索(RJGL);条件图模型协变量调整图模型(R代码:caPC

条件依赖性比基于边际相关性的方法更有效地捕获直接的生物相互作用

大多数方法假设多元正态分布

贝叶斯网络

有向

CONEXICLinuxCONEXIC); QTLnetRqtlnet);贝叶斯网络先验(MATLABBNP);搜索和评分方法、基于约束的方法(Rbnlearn

与因果关系更直接相关的链接;整合先验知识的能力;处理遵循不同分布类型的数据的可能性

不能很好地扩展到海量数据集

网络整合

无向

GeneManiaCytoscape/WebGeneMANIA); SNFRSNPtools); DCAMATLABMathup

通常实施起来很简单;从多个网络借用信息的能力

必须可靠地估计作为方法输入的各个网络;假设存在共同的生物学机制

边际相关分析
构建生物网络最常用的统计方法是边际相关分析。在此分析中,两种生物特征之间的关系是通过从多个统计独立观察推断出的表达、浓度或丰度水平的相关性来描述的。这种关系可以通过任何相关性统计度量来量化,包括Pearson相关性、Spearman秩相关性和 Kendall tau相关性,只要该方法对于给定的生物学背景有意义。
边际相关分析还可以扩展到统计相关的观察结果。例如,考虑随着时间的推移观察到两个生物特征的情况,相关性度量必须考虑观测的纵向性质。解决这个问题的一种方法是所谓的两个时间序列的局部相似性分析。在这种方法中,两个时间序列首先分别转换为其正常分数。然后,对于从头开始的第一时间序列的任何子序列,在某个预定义的时间延迟内识别来自第二时间序列的相同长度的所有子序列。然后计算两个时间序列中每对子序列之间的Pearson相关性。最后,局部相似性分数被定义为所有这些可能的子序列对的最大相关性。局部相似性分析已被证明对于检测共变微生物对以及微生物与环境因素之间的关联非常有用。
为了产生有意义的生物网络,研究通常仅包括网络中的相关性,这些相关性表现出绝对值超过阈值的相关系数,该阈值通常是任意确定的,或者其相关的p值小于显著性水平。在后一种情况下,一些应用程序只使用原始p值,这往往会产生过多的误报边缘,而其他应用程序则通过使用多重比较谬误(FWER)的多重测试校正调整p值来控制误报或错误发现率(FDR)。然后通过将这些生物特征对与统计上稳健的相关性连接起来并保持所有其他对不连接来构建生物网络。
上述阈值处理过程产生未加权的生物网络,任何一对节点之间存在或不存在边缘。而加权网络例如加权基因共表达网络分析(WGCNA)中,网络中的边缘通过推断相关性的软阈值函数(S形函数、幂邻接函数等)在连续尺度上进行加权。许多拓扑分析方法也从非加权网络扩展到加权网络,例如节点连通性、网络模块、聚类系数和无标度拓扑。与未加权网络相比,加权网络以连接强度的形式编码附加信息,因此加权网络已被证明是许多生物数据集的良好选择。
边际相关分析方法受到以下限制:它只能推断生物特征对之间的关系,而没有考虑观察到的关系如何依赖于其他变量或特征。因此,边际相关分析可能会导致虚假相关性。边际相关分析在寻求识别特征之间的直接相互作用或因果效应时容易出现误报。
降维方法
降维,例如主成分分析(PCA)方法,旨在降低一组变量的维度,同时保留尽可能多的原始数据信息。当研究两个要素类型之间的关系时,与每个要素类型关联的数据会以尽可能捕获两个要素类型之间的关联的方式减少到较低的维度。
常用的降维工具包括典型相关分析(CCA)、偏最小二乘回归(PLS)和协惯性分析(CIA)。这些工具通过使用少量线性组合来汇总每个特征类型中的变量,以便最大化这些线性组合所证明的两种特征类型之间的关联。CCA使用Pearson相关性来捕获两个线性组合之间的关联,PLS使用协方差来量化与来自一种特征类型的线性组合所具有的约束关联单位方差,CIA使用协方差来表示没有方差约束的相似性。
这些方法发现的线性组合往往包括考虑中的每个变量,尽管权重不同。这种包含每个变量的倾向会导致可解释性较差,因为很难确定哪些变量对典型相关性有贡献,哪些没有。因此,一个理想的扩展是向线性组合引入稀疏性,其中贡献较小的变量的系数缩小到零。最近应用这种策略的方法包括稀疏典型相关分析(SCCA)、稀疏偏最小二乘法(SPLS)以及稀疏余惯量分析(SCIA)。这些方法试图在最大化为不同特征类型定义的线性组合之间的相关性和最小化每个线性组合中包含的变量数量之间取得平衡。这些方法将变量选择技术融入到传统的降维方法中。因此,这些方法为每组变量生成稀疏线性组合。
另一个限制是它们只能考虑两种特征类型,即两组变量。人们提出了SCCA的扩展以适应多组变量的分析,多重CIA方法来整合转录组、蛋白质组和代谢组数据。所有这些方法的目的是从每组变量中找到一个线性组合,以便最大化每个线性组合与参数优化的合成轴之间的成对相关性平方和或协方差平方和。
第三个限制是它们只能通过线性组合来替换原始特征。非线性降维工具可以克服这一限制,例如基于内核的降维方法,包括内核主成分分析(KPCA)、内核典型相关分析(KCCA)以及核融合方法。
上述多组学数据集成降维工具的一个共同特点是它们都是基于两种或多种观测数据的集成,被称为数据驱动方法。另一类降维工具试图将观测数据与外部知识相结合,因此被称为知识驱动方法,例如基于知识的矩阵分解(KMF)的方法。KMF找到相关矩阵的最佳低秩分解,以便将其分解为三个矩阵的乘积。左右矩阵相互转置,它们近似表示通路中基因的成员资格,而中心矩阵则捕获通路之间的关系。KMF构建一个基因-基因相关网络,其结构与外部通路信息一致,同时还识别通路之间的相互作用。
总之,降维方法寻找特征组合来表示每种特征类型,同时最大化结果组合之间的相关性或协方差,因此可以被视为边际相关分析的多元扩展。这些方法面临与边际相关分析相同的陷阱。缺乏可解释性也是一个限制,因为每个组合都包括一组中的多个生物特征,推断的关系不能归因于特定的一对特征。
基于回归的方法
通过将一种特征类型作为响应变量、将另一种特征类型作为预测变量来拟合一系列回归模型。回归模型识别关联通常为有向关系,预测变量影响响应变量。然而,这种推断的效果并不一定表明变量之间存在因果关系。对于非连续数据,广义线性模型也已被用来阐明基因组特征的相互作用。基于回归的方法也已用于整合其他类型的多组学数据。
每个回归模型还可以同时包含大量预测变量,以识别一组最能预测响应的变量。在这些方法中,特定特征类型被视为响应数据,其他特征类型被视为解释数据。在每个回归模型中,一个特征被视为响应变量,该特征与回归中的所有变量进行拟合。作为预测变量的解释数据。由此产生的高维导致不确定的回归问题,从而使普通最小二乘法和最大似然估计不适定。因此,需要变量选择技术来估计模型参数。
正则化回归最具代表性的方法是lasso。惩罚项被合并到通常的最小二乘或最大似然目标函数中,以便将参数估计集中的一些缩小到零,从而导致回归系数的稀疏性。该策略同时实现了变量选择和参数估计。估计为非零的每个系数由相关预测变量和响应之间的网络中的边缘表示。
另一种基于回归的综合网络推理方法为多元回归技术,其中包括单个模型中的多元响应变量。当针对一组预测变量对多变量响应进行建模时,未知系数以矩阵的形式出现,其中分配一个条目以将每个响应变量与每个预测变量相关联。通常对该系数矩阵的稀疏性或秩或两者施加约束,以确保尽管样本大小与参数数量相比有限,但仍可以拟合模型,使用与非零系数相对应的边来构造有向网络。多元回归仅适合一个联合模型,通过稀疏性和秩约束进行更真实的建模并简化对生物机制的理解。
回归模型的优点是能够纳入相关的协变量信息。回归方法也得到了惩罚回归处理高维数据的最新统计发展的支持。然而,大多数基于回归的方法需要将每个特征识别为响应变量或预测变量,这可能是一个非平凡选择,特别是当对所研究的系统的基础生物学知之甚少时。
基于图模型的方法
在多元高斯分布中,当且仅当分布的逆协方差矩阵中的相应条目为零时,两个变量在统计上独立于所有其他变量。构造一个网络,其每条边代表给定所有其他特征的两个特征之间的条件依赖性,相当于识别多元高斯分布的逆协方差矩阵的非零条目。实际上,数据通常是高维的,变量多于样本,这导致样本协方差矩阵退化,使得逆协方差矩阵的估计具有挑战性。
高维高斯图模型中估计逆协方差矩阵的统计方法主要有两种:邻域选择法和图解套索法。两种方法都会产生逆协方差矩阵的稀疏估计量,其非零条目可用于构造一个网络,该网络表示高斯图模型中变量之间的条件依赖性。为了将高斯图形模型应用于多组学数据的整合,将来自多个特征类型的所有变量组合成一个向量,假设该向量遵循多元正态分布。然而,这种方法有效地将所有变量视为可交换的,反过来又忽略了有关其组结构的潜在重要信息。
高斯图模型在多组学数据中的一种应用是联合高斯图模型,它在多个图模型之间的某些约束下同时估计多个图模型。约束通常由多个逆协方差矩阵的一些先验知识决定。
基于联合高斯图模型的贝叶斯推理已用于在逆协方差矩阵上应用G-Wishart先验来构建网络。在这种特殊情况下,施加马尔可夫随机场先验来刺激联合图结构之间的公共边。该过程通过在测量网络相关性的参数上施加spike-and-slab先验,识别哪些组具有共享网络结构。
条件图模型包含额外的条件步骤,以消除可能由常见外部因素引起的虚假依赖性。一种分两步推断条件图模型的方法,首先估计条件协方差矩阵,然后使用惩罚最大似然来获得逆条件协方差估计器。在这些方法中,第一步估计遗传变异的影响,第二步估计图形结构,同时调整遗传效应。
大多数联合或条件图形模型都采用稀疏假设来解决逆协方差矩阵估计中的高维问题,但通常依赖于多元高斯分布的假设。另一种模型在混合模型下估计逆协方差矩阵,该模型通过容纳离散变量和连续变量来包含不同的生物特征类型。使用伪似然法代替通常的似然法进行参数估计。图模型方法仍需要考虑微生物组数据的独特特征。
贝叶斯网络
贝叶斯网络是概率图模型。在贝叶斯网络中,具有有向边的图用于表示一组变量的联合概率分布中的条件关系:对于每个变量X,给定其父变量(即指向X的节点),X仅影响其子变量(即X指向的节点)并且条件独立于所有其他变量。这些条件独立性约束通常可以大幅减少对变量进行联合建模所需的参数数量。
QTLnet是一种使用包含表型和基因型变量作为节点的贝叶斯网络来联合估计多个表型及其各自遗传结构之间的因果网络的方法。为了提高基于实验数据的基因相互作用网络的恢复,提出了一种称为BNP的分层方法,其中贝叶斯网络嵌套在经典贝叶斯建模框架内,将有关基因相互作用的丰富外部知识纳入贝叶斯推理过程中作为先验信息。
贝叶斯网络方法在多组学数据分析的优势:首先,贝叶斯网络通常类似于有向网络,因此经常推断节点之间的因果关系。网络边缘通常被解释为表示信息如何在生物过程中的变量或组件之间传播。但贝叶斯网络不能保证因果关系。其次,贝叶斯网络可以结合有关特征类型内或之间的变量之间的合理关系的先验知识。第三,贝叶斯网络的建立方式可以允许对遵循不同类型分布的变量进行同时建模。
限制贝叶斯网络的主要挑战是其高昂的计算成本。贝叶斯网络结构的估计通常涉及在大型非凸搜索空间上优化复杂的目标函数。随着变量数量的增加,计算负担呈超指数增长。因此,在贝叶斯网络对多组学数据的大多数应用中,要么只考虑少量到中等数量的组学变量,要么在实施贝叶斯网络之前应用降维技术来减少变量的数量。
网络整合
多组学数据集成的一个关键目标是从不同类型的组学数据中创建生物过程的全面视图。网络集成方法试图通过集成由不同数据类型组装的多个不同的生物网络来解决这个问题。
方法GeneMANIA是通过对特征之间的多个关联网络进行加权平均来构建复合关联网络,其中权重是基于以下因素选择的:复合网络重建特征的参考特征的能力。
扩散分量分析(DCA)是一种针对具有不同连接模式的异构网络的网络集成方法。在DCA中,每个节点的扩散状态通过重新启动随机游走(RWR)方法进行分析,并存储为概率单纯形,表示从一个节点开始的RWR将在另一个平衡节点处结束的概率。两个节点之间相似的扩散状态意味着这些节点在网络内相对于其他节点处于相似的位置。接下来,各个网络中特定于节点的扩散状态由两个低维潜在向量表示:一个在所有网络之间共享,另一个使用多项逻辑模型对内在拓扑属性进行编码。这些共享的低维特定于节点的潜在向量代表了整个网络的同质拓扑属性,并可以在其他方法中使用。
相似性网络融合(SNF)通过结合为每个对象测量的多个特征类型,构建了对象之间的合并网络。SNF首先为来自每种数据类型的同一组样本创建一个网络。然后,它将这些网络融合成一个相似性网络。融合的关键思想是利用两条信息来更新一个网络:网络的局部亲和力和所有其他网络的平均相似度矩阵。发生迭代融合过程,每次迭代都会增加网络之间的相似性,直到SNF通过取所有网络的平均值获得最终网络。SNF利用网络的本地结构,集成跨网络的公共信息和补充信息。
网络集成方法提供了一种简单直接的解决方案,通过合并多个网络中不同类型的边来集成跨多个网络的相似节点,但在保留多个网络之间的关系时,特别是当网络是异构的并且不共享相同的生物机制时,它们的效率较低。

根际互作生物学研究室 简介

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多