【原】综述 | npj Biofilms and Microbiomes：微生物成分分析：标准化和差异丰度分析

微生态 2021-04-13

展开全文

编译：独世，编辑：小菌菌、江舜尧。

原创微文，欢迎转发转载。

导读

越来越多研究表明微生物组与多种人类疾病之间存在一定的关联，例如肥胖、炎症性肠病、HIV等。进行微生物组广泛关联研究的第一步是在不同条件下表征人类微生物组的组成。确定两个或多个环境之间具有丰度差异的微生物（称为差异丰度（DA）分析）是一个具有挑战性的重要问题，在过去十年中受到了广泛的关注。大量文献指出观测微生物组数据（OTU/SV表）的相对丰度大于零。由于相对丰度总计为常数，因此这些数据必定是组成数据。在本文中，我们回顾了一些用于DA分析的最新方法，并描述了它们的优缺点。

论文ID

原名：Analysis of microbial compositions: a review of normalization and differential abundance analysis

译名：微生物成分分析：标准化和差异丰度分析

期刊：npj Biofilms and Microbiomes

IF：7.067

发表时间：2020.12

通讯作者：Shyamal Das Peddada

通讯作者单位：匹兹堡大学；美国国立卫生研究院

主要内容

实践中，无法轻易确定单位生态系统中一个分类单元的绝对丰度或绝对相对丰度。尽管通常无法观察到这些参数，但下一代测序（NGS）技术（例如16S rRNA基因测序）仍可提供有用的数据，以描述生态系统中的微生物组成。

如果一个分类单元的平均绝对丰度在两个生态系统之间不同，则我们认为在两个生态系统之间存在丰度差异。在一个生态系统的单位体积中区分出分类单元的绝对和相对丰度是十分重要的。统计分析参数的选择很重要，需要明确说明。研究人员经常对判别两个或多个生态系统之间单位体积平均绝对丰度不同的分类单元感兴趣。平均绝对丰度可能不是唯一的关注标准，研究人员可能会考虑其他标准，例如差异排名。此外，在某些情况下，例如生态位分配，研究人员对确定两个或多个生态系统之间单位体积的绝对相对丰度不同的分类单元感兴趣。因此，统计参数的选择取决于所关注的科学问题。

对于样本j中的每个分类单元i，采样分数是第j个样本中的分类单元i的预期丰度与其在其所源自的生态系统（例如肠道）的单位体积中的绝对丰度之比。对于第j个样本中的所有分类单元，假定采样分数是恒定的。因此，第j个样本的采样分数由以下表达式给出，该表达式涉及在给定不可观察的绝对丰度的情况下观察到的丰度

的条件期望。

其中，

(1)

是在第j个样本中观察到的第i类群的丰度，

(2)

是第j个样本的生态系统，未观察到的第i类群中绝对丰度

(3)

是样本特定的采样分数

图1显示了由三个研究对象为A，B和C的生态系统组成，每个研究对象都有两个分类单元，即蓝色和红色分类单元。比较A和B的生态系统时，可能会产生假阴性。显然，与A相比，B的生态系统中每个分类单元的真实绝对丰度高出50％。但是，它们各自在各自的样本（例如粪便样本）中具有相同的文库大小（每个为4）。如果不考虑差分采样分数，就会错误地得出结论，即在两个生态系统中没有一个分类单元丰富。如果人们认识到从A的样本中获得的样本中有更大的样本分数，就可以避免这个错误的结论。生态系统要比B的生态系统高（1/2 vs. 1/3）。同样，我们比较A和C的生态系统时得出了假阳性的结果。C中的蓝色分类单元比A中的丰富（12 vs. 4），并且红色分类单元的数量相同（4 vs. 4）。但是，鉴于A和C的样本文库大小相同，可能会错误地得出结论，A和C之间的蓝色（2 vs. 3）和红色分类单元（2 vs. 1）都丰富。

图1 微生物组数据用相对丰度表示，因此差异丰度分析应考虑采样分数中跨样本变化所引起的偏差。采样分数定义为样本中预期丰度与生态系统中相应绝对丰度的比率，可以通过库大小与微生物载量的比率凭经验估算。a采样分数的差异会引入假阴性。b采样分数的差异会导致错误结论。

1 标准化方法

执行DA分析的一个重要问题是与每个样本相对应的未知采样分数。对数据进行标准化以消除由于采样分数不同而引起的任何偏差是极为重要的。因此，标准化的主要目的是转换观察到的数据，以使两个生态系统之间的平均绝对丰度的预期差异不会因采样分数的差异而混淆。如果不对数据进行标准化将导致系统性偏差，从而增加错误发现率（FDR），在某些情况下还可能增加功效损耗。

1.1 稀释

传统的微生物组分析工作流程通常涉及稀释或二次采样至给定深度，这是之前在微生物研究领域的实践方法。稀释样品用于处理文库大小的差异。微生物基因组数据首先建议使用稀释处理稀有分类单元，这会影响某些alpha和beta多样性指标。通常，稀释过程包括以下步骤：

（1）确定最小的文库大小（Omin），去除文库大小小于Omin的样本；

（2）未替换的子样本分类单元，因此所有的样本均有相同的文库大小Omin。

选择最小文库大小的一种方法是创建稀释性曲线。稀释曲线表示多样性随文库大小的变化情况（图2）。如果图线在x轴上“变平”（即接近零斜率），则表明在最小文库下已充分观察到样本的多样性；否则，增加最小文库大小将产生附加的特性。最初，稀释性曲线是基于alpha多样性。但是，最近研究人员也将beta多样性包含进来。尽管稀释已经很成熟并且在实践中得到了广泛应用，但是近年来，人们已经开始讨论稀释对差异丰度分析的统计检验的影响。文献中讨论的一些问题包括：

（1）省略可用的有效数据；

（2）在二次抽样步骤中引入了人为不确定性；

（3）任意选择最小文库大小；

（4）估计过渡分散因子。

图2 使用属水平的饮食交换数据获得的稀释性曲线。共有130个属，样本大小为222（非裔美国人=123，非洲原住民= 99）。x轴表示库的大小，y轴表示相应的alpha多样性。数据表示为平均值±标准误差（SE）。

1.2 缩放比例

缩放是用于标准化生物群落数据的另一种流行方法，基本思想是将特征表中观察到的丰度除以“缩放因子”或“标准化因子”，以消除由不相等的采样分数引起的偏差。其准确定义如下:

其中

（1）

是样本j中分类单元i的标准化后的观测丰度

（2）

是样本j的缩放或标准化因子

与采样分数（等式（1））的定义相比，理想的缩放方法应具有接近未知采样分数

的缩放因子，即

；或大约与

成正比，即所有j的

，其中c为常数。

一些常用的标准化方法包括在metagenomeSeq实现的Cumulative-Sum Scaling (CSS), DESeq2中的Median(MED)，edgeR中的Upper Quartile(UQ)和Trimmed Mean of M-values (TMM), Wrench以及Total-Sum Scaling (TSS)，它们能够简单地将丰度表（功能表）转换为相对丰度表，即按每个样本的文库大小进行缩放。edgeR用户手册的作者指出，要处理“RNA组成”效应，应将标准化因子乘以相应的文库大小以解决“有效文库大小”的问题。因此，有学者还考虑了UQ和TMM的修改版本，用“ELib-UQ”（使用UQ的有效文库大小）和“ELib-TMM”（使用TMM的有效文库大小）表示。

已知TSS的差分丰度估计有偏差，因为一些优先采样的测量值（例如分类群，基因）会对相对丰度数据产生过多的影响。单个分类单元的丰度变化可以改变所有分类单元的相对丰度。通常，基于TSS分析中生成的FDR过大。metagenomeSeq中的CSS以特定于样本的方式修改TSS，以减少优先采样的类群导致的偏差。CSS假定观察到的样本丰度应大致独立，并且在特定分位数/之前分布相同。因此，CSS不用按其文库大小（也称为总和）对每个样本进行标准化，而是选择缩放因子作为每个样本的观测丰度的累积和直到第/个分位数。以数据驱动的方式自适应确定此分位数，该方式取决于累积总和从稳定到不稳定的切换分布的变化点。DESeq2中使用的MED方法假设中位数绝对丰度的分类单元不存在丰度差异。尽管这在基因表达研究中可能是一个有效的假设，其中大部分基因没有表达差异，但在微生物组研究中可能不是一个有效的假设。根据应用的不同，在两个或多个研究组之间可能会有很大比例的分类单元丰富度差异，尤其是对较高分类水平（例如门，目等）进行数据进行分析时。edgeR中使用的UQ和TMM与DESeq2中的MED存在类似的问题。UQ假定每个文库的观测丰度的上四分位数能够捕获计数分布的不变部分。然而，选择最有效的分位数并非易事。与MED类似，TMM基于以下假设：大多数分类单元的丰度没有差异。缩放因子是通过首先默认修整属于上下30％M值（分类单位对数变化）或5％A值（丰度水平）的分类单元。Wrench认为观测丰度来自对数高斯分布。对高斯分布的可靠位置估计会为每个样本带来所需的缩放因子。然而，Wrench当前仅对分类变量实施策略，估计的缩放因子本质上是整个分类单元中相对丰度比的平均值，这潜在地要求大部分分类单元在各个研究组之间均不发生变化，或者对显著丰富的分类单元的影响较小。

使用缩放方法时必须格外小心。最重要的是，根据每个样本的相应文库大小，缩放方法可能会高估或低估零计数的分数。由于微生物组数据的特征表通常很少，因此该问题变得更加明显。

最近，Lin和Peddada提出了一种新的方法，即使用偏倚校正对微生物组成分进行分析（ANCOM-BC），以解决采样分数不相等的问题。ANCOM-BC假定，在特征表中观察到的丰度与预期的比例正比于生态系统单位体积中分类单元的不可观察的绝对丰度。该比例定义为采样分数，并且可以随样品的不同而变化。ANCOM-BC通过在线性回归模型中引入特定于样本的偏移项来说明采样分数，该线性回归模型是根据观察到的丰度数据估算的。偏移项用作偏差校正。

使用Poisson-Gamma模型以及基于真实数据的模型进行了广泛的仿真研究，以评估各种标准化方法的性能。本文图3中报告的结果与其他文献中的结果相似，但是在本仿真研究中，我们分为3组，分别用，和表示。我们基于对数尺度使用真实和估计采样分数之间的中心残差比较了所有标准化方法。

其中

(1)

表示基于对数尺度下缩放因子

的影响

(2)

对于每个样本j，一种合理的缩放方法应估计接近真实采样分数的缩放因子，并且在所有样本上可能具有固定的偏移。因为仅针对文库大小（例如TSS）的差异提出了许多标准化方法，并非所有缩放方法都有望实现此目标。无法校正采样分数的差异将导致测试统计数据出现不良的系统偏差，这可以通过在中心残差与相关协变量（例如）之间进行简单的线性回归来确定：

可以通过对替代假设

检验零假设

或仅通过绘制中心残差的箱形图来确定是否存在由于采样分数差异而导致的系统偏差，如线性回归诊断中通常所做的那样（图3）。对于理想的标准化方法，箱形图应不显示相关协变量的任何模式，而中心残差应随机分布在0左右。如图3所示的箱形图所示，除了ANCOM-BC，UQ和TMM方法，其他方法都显示

分别各自聚类，这表明在估计采样分数时，使用这些方法估计的比例因子（ANCOM-BC，UQ和TMM）在系统上因组标签而异。此外，ANCOM-BC的箱形图具有最短的宽度，这表明它不仅可以成功地估计真实的采样分数并消除了由于其可变性引起的偏差，而且它具有最小的方差，而其他方法则没有。

图3 真实采样分数与其每个样本的估计值之间的残差箱形图。在箱形图中，上下铰链分别对应于第一和第三四分位数（第25和第75个百分位数）。中位数由方框内的实线表示。在三个研究组（以圆形，十字形和三角形表示，每组30个样品），共检查了N = 90个样品。每个分面标题均指示标准化方法，并且方括号内提供了其方差。

1.3 基于对数比的方法

文献中提出了几种上述方法的替代方法，这些方法受到Aitchison的组成数据方法的启发。这些方法未明确执行类似上述方法的标准化方法，因为它们将每个样本内的观测丰度转换为对数比。因此，在每个样本中，通过获取所有分类单元相对于某个通用参考分类单元或所有分类单元的某些合适函数的对数比，这些方法从本质上消除了采样分数的影响。此类方法包括DR8，ANCOM和ALDEx2。ALDEx2使用预先指定的分类单元作为参考分类单元，并将观测丰度转换为每个分类单元相对于参考分类单元的观测到的丰度的对数比。观测丰度数据的这种对数转换称为加法对数转换（alr）。在数学上，它的定义如下：

因此，alr变换将单纯形（即和为常数）的表示个分类单元的维观测丰度向量转换为欧氏空间中维的数据。alr以及ALDEx2的问题在于用户需要预先指定参考分类单元。尽管这在某些应用中可能很容易做到，但是当分类单元的数量很大时，例如当我们对类属水平的DA分析感兴趣时，通常这是一个很大挑战。尽管ANCOM也是基于alr转换的，但它克服了上述缺陷，因为它通过一次将个分类单元中的每一个作为一个分类单元来重复应用alr转换。因此，对于每个分类单元，它执行回归。因此，它总体上适合回归模型。

为了避免由于alr转换而产生的上述问题，而不是使用预先指定的分类单元作为参考分类单元，可以将所有分类单元的中作为参考。因此，在每个样本中，对于每个分类单元，相对于所有分类单元的几何平均值计算对数比。这种转换称为clr转换。更准确地说，其定义如下：

其中，g(x)是x的几何平均值

这种向真实空间的转换再次使无约束统计方法的实现成为可能。clr变换是等轴测图，但是变换后的值之和等于0，从而导致衰退分布。

alr变换不是等距的，clr不是同构的。等距对数比变换（ilr）（也称为平衡）既是同构又是等距，因此可以使用此变换定义正交坐标。

其中，

表示（m−1,m）规范正交基

有多种构建正交基的方法。通常，如果给出了分叉树，则可以从树中的内部节点构建基础。ilr转换后的数据中的每个元素都具有以下形式：

2 差异丰度分析方法

文献中已经引入了许多程序并用于识别差异丰富的分类单元。一种常见的方法是在对特征表进行标准化后，应用非参数检验（例如，Mann-Whitney/Wilcoxon秩和检验用于两个样本组；Kruskal-Wallis检验用于多个样本组）。不幸的是，这些标准的非参数检验未考虑微生物组数据的组成结构。

2.1 基于RNA序列的方法：edgeR和DESeq2

作为标准非参数检验的替代方法，文献中已经提出了许多基于转录组学数据（例如RNA-Seq数据）的参数模型，用于检验研究组之间的差异。其中，DESeq2和edgeR是两种流行的方法。这些方法使用对应的缩放方法将数据标准化之后，使用负二项式（NB）分布对观测丰度进行建模，以解决采样分数的差异。因此，使用负二项式分布对进行建模，如下所示：

引入分散因子是由计数数据（例如RNA-Seq，微生物组数据）中均值方差的依赖性导致的，并且特别当均值较大时，方差通常大于均值。因此，观测丰度方差建模如下：

NB分布比Poisson分布更适合于对这些类型的计数数据进行建模，因为它在建模方差方面具有更大的灵活性。通过在总数上设置独立的Poisson随机变量可得出多项式分布。

分散因子的估计对于edgeR和DESeq2都是至关重要的。基于假设观测丰度相似的分类单元也共享相似的方差，edgeR通过条件最大似然来估计分类单元的分散，然后使用经验贝叶斯程序将每个分类单元的分散估计值收缩为具有相似的观测丰度的分类单元的共同估计值。同样，DESeq2首先通过最大似然估计来估计分类方向的离散度，然后拟合结合所有单个估计值的离散趋势，最后使用经验贝叶斯方法将分类方向的离散度估计缩小到趋势曲线所预测的值。

虽然这两种方法通常都非常合理且适用于基因表达数据，但对于微生物组数据似乎表现不佳。这主要是因为这两种方法使用的标准化方法本质上是假设一小部分的分类单元存在丰度的差异。该假设不一定对微生物组数据有效，因此，这些方法使用的检验统计量在原假设下固有地存在偏差。Lin和Peddada的分析和经验证明此处使用相似的基于对数正态分布的模拟设置（图4）进行经验重现，测试统计量的偏差导致这些方法中的FDR过高。更糟糕的是，由于存在偏差，随着样本数量的增加，这些方法的FDR也随之增加。Weiss等报道了类似的现象。在进行人口研究时，重要的是要认识到受试者内部存在变异，而人群中受试者之间也存在变异。简而言之，从一个受试者的粪便样品到从同一受试者获得的粪便样品，观察到的来自一个受试者的分类单元的丰度可能有所不同。这在受试者内部的变异。因此，在计算随机受试者测量值的变异性时，需要考虑受试者内部以及受试者之间的变异。这会导致出现过度分散的现象。尽管考虑到这种过度分散很重要，但由于上述差异采样分数，它不能校正固有偏差。即使校正了过度分散参数，RNA-seq启发式方法对于微生物组数据的效果也不佳。

图4 比较错误发现率（FDR）和功效。a，b分别显示了FDR和各种DA分析的功效（两侧）。分类单元的数量设置为200，每组30个样本，共60个样本。

2.2 MetagenomeSeq

在metagenomeSeq中实现了基于零膨胀高斯（ZIG）的替代混合模型来代替使用负二项式模型，其中由于概率质量计算了由采样零和结构零而导致的多余零，高斯分布模拟了非零的观测丰度。该框架可以总结如下：

但是，正如我们的基准模拟（图4）以及其他先前发表的模拟研究所示，尽管metagenomeSeq的幂比大多数其他DA方法略高，但即使观测丰度通过CSS进行标准化，它也受到不合理的高FDR的影响。此外，当样本量或效应量（即平均绝对丰度的倍数变化）增加时，FDR膨胀的问题变得更加严重。值得指出的是，在所有参数模型中，metagenomeSeq是唯一一种应用于稀释数据时增加FDR的方法。这可能是由于其零膨胀模型，该模型需要输入精确的文库大小来捕获零比例。

MetagenomeSeq的作者修改了他们的程序，并建议使用零膨胀对数高斯（ZILG）混合模型替换零膨胀高斯（ZIG）混合模型以进行DA分析。尽管切换到零膨胀对数高斯分布改善了FDR控制，但是该过程变得非常保守，FDR接近于零，并且在我们的仿真中（图4）和参考文献中都出现了很大的功效损耗。

2.3 ALDEx2

该方法基于原始版本的ANOVA类方差表达差异（ALDEx）分析，可作为一种组成数据分析工具，适用于三种不同类型的数据：RNA-Seq，ChIP-Seq和16SrRNA基因测序。通过确认这些高通量测序数据基本是组成，ALDEx2的方法可以总结如下：

（1）通过从狄利克雷（Dirichlet）分布中使用一致的技术进行蒙特卡罗（MC）采样，将观察到的丰度转换为相对丰度。MC采样重复K次（默认情况下为K = 128次），因此，对于样本j中的每个分类单元i，观测丰度

基本上由MC样本的相对丰度的向量表示

（2）在每个样本j和每个MC Dirichlet realization k中，k = 1, …, K，对相对丰度矢量进行clr转换，

（3）将clr转换值向量中的每个分类单元上进行显著性检验（Welch的t检验或Wilcoxon检验）。由于总共有K个MC Dirichlet样本，因此每个分类单元将得出K个p值。

（4）使用B–H程序校正每个所得的p值，并通过采用K个调整的p值的经验平均值来报告每个分类单元的预期调整的p值。

ALDEx2旨在识别相对于几何平均丰度的两个或多个组之间的特征（基因，分类群或基因组片段）差异丰度。如本文模拟研究（图4）中所述，ALDEx2不仅通常超过FDR的标准水平（5％），而且与其他DA方法相比，其功耗也要小得多。其他研究也报道了类似的结果。

2.4 ANCOM

ANCOM是一种基于alr的方法，可以用来解释微生物组数据的组成结构。给定总共m个分类单元，ANCOM依赖于以下两个假设：

假设0.1：2个分类单元的平均对数绝对丰度（在生态系统中）没有差异。

假设0.2：两个研究组之间所有m类群的平均对数绝对丰度（在生态系统中）没有相同的差异。

ANCOM进行的第一个假设比DESeq2和edgeR进行的假设弱，DESeq2和edgeR要求非常“少”的分类单元达到丰度差异。在上述假设的基础上，再加上ANCOM通过依次使用每个分类单元作为参考分类单元来执行所有可能的DA分析，作者证明了可以使用相对丰度检验生态系统单位体积中平均对数绝对丰度的零假设。

对于第i个分类群和第j个样本，ANCOM使用标准ANOVA模型公式表示：

如模拟研究（图4）所示，使用W分布的第70个百分位数作为阈值，ANCOM成功地将FDR控制在标准水平（5％）以下，同时保持了足够的功效。但是，ANCOM可能是计算密集型的，因为对于每个分类单元，它都会使用所有剩余的分类单元进行alr转换。计算时间与分类单元的数量成正比。此外，ANCOM做出的统计结果取决于其测试统计量W的分位数，而不是p值。

2.5 DR

DR利用相对微分的等级（即绝对相对丰度之间的对数比）与绝对微分的等级（即绝对丰度之间的对数比）相同。他们使用线性回归来估计相对差异，在线性回归中可以对相对丰度进行转换。对与不同分类单元相对应的回归系数进行排序，以便确定最重要的分类单元和最不重要的分类单元。DR模型可以总结如下：

因此，与典型的DA方法不同（在典型的DA方法中，估计的系数反映了绝对丰度的变化），DR结果的解释需要谨慎，因为它基于等级。由于存在微生物负荷偏差，DR模型的正值系数并不一定意味着绝对丰度增加了。类似地，零值系数并不意味着相应分类单元的绝对丰度没有改变。然而，基于系数的等级，人们可以专注于等级较高或较低的分类单元，因为相对于其他分类单元而言，它们是绝对丰度可能增加或减少最多的分类单元。注意，由于DR模型的alr转换中的不同参考分类单元将导致关于等级的相同结果，因此DR对参考分类单元的选择是可靠的。

2.6 ANCOM-BC

ANCOM-BC使用基于偏移的对数线性模型对观测丰度进行建模。

在这种设置中，使用Kaul等人所述的方法进行处理零计数。该公式明确地测试了有关单个分类单元绝对绝对丰度的假设，同时估计了特定于样本的采样比例并适当地校正了偏差。正如我们的模拟研究所证明的那样，ANCOM-BC不仅可以很好地控制FDR，而且在功效方面也可以与其他方法很好地竞争（图4）。此外，与任何现有方法不同，ANCOM-BC为两个研究组之间单个分类单元的差异丰度提供了有效的置信区间，并且还提供了有效的p值。由于它具有线性回归框架，因此可以进行重复的测量设计以及协变量调整。ANCOM-BC还可以扩展以描述多个研究组（例如时间过程或剂量反应研究）中差异丰度的模式。

作为基准分析，我们还使用全球肠道菌群数据比较了ANCOM-BC，ANCOM和DR判断出的重要细菌属。该数据集包含从美国（n = 317），马拉维（n = 114）和委内瑞拉（n = 99）受试者粪便样本中获得的11,905个OTU。我们首先将数据细分为年龄层“≤2年”和“> 2年”。之所以进行这种分层，是因为预计当婴儿从母乳（或配方奶）转换为固体食物时，其微生物组成会发生变化。马拉维（MA），美国（US）和委内瑞拉（VEN）的两个年龄类别（≤2岁，>2岁）的样本量分别为（47，36），（50，260）和（27，70）。请注意，缺少年龄值的样本在下游分析中被丢弃。如原始论文中所建议，在没有可用于DR的阈值的情况下，我们通过选择回归参数估计的等级顺序中的前25个和后25个属来调查属的最高/最低等级。如图5所示，这三种方法通常具有大量重叠的属，其中ANCOM-BC和ANCOM具有更多的共同分类单元，且差异很大。在使用ANCOM时，我们使用W分布的第70个百分位数作为阈值。请注意，DR方法是在算法中将多项式模型的所有超参数设置为默认值的情况下应用的，可以进一步对其进行调整。

图5 由ANCOM-BC，ANCOM和DR判别的的丰度差异属的维恩图。整体肠道菌群数据用于制作维恩图。数据集包含673个属，受试者来自马拉维（MA，n1= 114），美国（US，n2 = 317）和委内瑞拉（VEN，n3 = 99）。

2.7 基于平衡的方法

文献中关于平衡的方法主要包括gneiss，phylofactorization，PhILR和selbal。尽管基于平衡的方法并未明确设计用于对单个分类单元进行正式的统计DA分析，但通常将其用于此目的。为了解决16S rRNA数据的组成结构对识别个体差异丰富的分类单元构成的问题，基于平衡开发了gneiss来识别不同协变量之间的分类单元分布。平衡可用于推断子群落中有意义的属性。Gneiss的目标是将感兴趣的参数的影响与平衡矩阵相关联：

Gneiss的方法非常灵活，可广泛用于确定各个子群落中微生物的生态位。因此，这是发现微生物中生态位分化的非常有用的方法。与Gneiss相似，phylofactorization不是为本文定义的DA分析而设计的，而是着重于具有清晰系统发育解释的进化枝之间的比较。它基于贪婪算法，该算法顺序选择边，而不是系统发育中的节点或分裂，其ilr基本元素最大化了预先指定的目标函数（例如，说明的变化百分比）。因此，除比较姐妹进化枝外，phylofactorization还比较所有其他进化枝之间的相对丰度。

我们使用马拉维（MA，n1 = 114）和美国（US，n2 =317）数据使用本文前面讨论的全球肠道数据来说明gneiss。Gneiss识别出各种平衡之间的不同趋势（图6）。例如，对于年龄≤2岁的受试者，检测到的y0相对于MA的US升高；对于>2岁的受试者，情况则相反。需要牢记的一个警告是，在不同数据集之间，余额的组成不一定相同。年轻一代（年龄≤2岁）的第一余额y0由分子中的642个分类单元（左子树）和分母中的31个分类单元（右子树）组成；另一方面，年龄较大的组（年龄大于2岁）的y0在分子中有655个分类单元，在分母中有18个分类单元。Gneiss并不是为了推断每个分类单元的丰度变化而设计的，然而，它可以回答诸如y0分子平均分类单元的绝对丰度是否比分母中的绝对丰度增加或减少的问题。

图6 利用gneiss确定了全球肠道菌群数据前20个平衡数的瀑布图可视化系数。数据集子集划分为国籍分别为马拉维（MA）和美国（US）的受试者。

2.8 LEfSe

LEfSe是专为微生物组数据的组比较而设计的，尤其着眼于检测具有生物学一致性的两组或更多组样品之间的相对丰度变化。LEfSe中执行的重要统计和计算步骤如下：

1.对于每个分类单元，使用Kruskal–Wallis检验测试其在不同组中观测丰度是否有显著差异。

2.（可选，仅在定义子组的情况下）去除在步骤1中没有统计学意义的分类单元（例如，p值>0.05）。然后应用成对的Wilcoxon检验来保留分类单元。如果一个分类单元在每个成对比较中都不显著（例如，至少一个成对比较的p值> 0.05），或者在所有比较中测试统计的符号不相等，则不保留分类单元以供进一步考虑。

3.选择特征后，将LDA模型建立为模型，将组标签作为因变量，并将在上述步骤中选择的分类单元的丰度，子组标签和人口统计特征作为独立变量。此模型用于计算每个分类单元的效果大小。该效果大小用作每个分类单元变异性和歧化能力的平均值。

4.最后，通过在[1，10]区间中缩放后计算效果大小的对数（以10为底），获得每个分类单元的LDA分数。基于相应的LDA分数分配每个分类单元的等级，并且可以通过为LDA分数设置阈值（例如2.0）来实现进一步的功能选择。

LEfSe方法更是一种判别分析方法，而不是DA方法。与本文前面讨论的DA分析方法不同，LEfSe更侧重于研究微生物特征与结果或表型之间的关系（第3步）。更准确地说，LEfSe试图量化微生物谱（例如一组分类群）与目标结果之间这种关联的效应大小的大小。

你可能还喜欢