【原】科研 | Nature子刊：用偏差校正分析微生物群的组成

微生态 2021-04-13

展开全文

编译：国民少女，编辑：小菌菌、江舜尧。

原创微文，欢迎转发转载。

导读

由于数据的复杂性，微生物组数据的差异丰度（DA）分析仍然是一个具有挑战性的问题。在本文中，我们定义了“采样分数”的概念，并证明了进行微生物组数据的DA分析的主要障碍是样本之间采样分数差异带来的偏差。本文介绍了一种称为带有偏差校正的微生物群落组成分析（ANCOM-BC）的方法，该方法可以估计未知的采样比例并校正由于样品之间的差异而引起的偏差。绝对丰度数据使用线性回归框架建模。该公式在该领域取得了根本性的进步，因为与现有方法不同，它（a）提供具有适当p值的统计有效检验，（b）为每个分类单元的差异丰度提供置信区间，（c）控制错误发现速率（FDR），（d）保持足够的功率，（e）在计算上易于实现。

论文ID

原名：Analysis of compositions of microbiomes with bias correction

译名：用偏差校正分析微生物群的组成

期刊：Nature Communications

IF：12.121

发表时间：2020.7

通讯作者：Shyamal Das Peddada

作者单位：匹兹堡大学

实验设计

数据预处理：在执行DA分析之前，我们采用ANCOM-II的方法作为预处理步骤来处理不同类型的零。在某些情况下，生态系统中系统地缺少某些分类单元。例如，来自沙漠的土壤样品中可能存在分类单元，而来自雨林的土壤样品中可能没有分类单元。在这种情况下，观察到的零称为结构零。如果在一个实验组中某个分类单元被认为是结构零，那么对于该特定的生态系统，该分类单元将不用于进一步的分析。因此，假设存在三个生态系统A，B和C，并且假设分类单元X在生态系统A和B中为结构零，但在C中则不是，那么宣布分类单元X在C中相对于A和B差异丰富，并且不进行分析进一步。如果在生态系统A中分类单元Y在结构上为零，但在B和C中不是，则在这种情况下，我们宣布分类单元Y在B中相对于A差异丰富，并且在C中相对于A差异丰富。然后比较绝对丰度 B和C之间使用本节中描述的方法对分类单元Y进行分析。在以下分析中，所有实验组中被识别为结构零的分类单元将被忽略。

接下来进行模型假设，回归框架搭构，最后将假设检验用于多组比较。

图1 绝对丰度和相对丰度之间的区别。

图2 由交叉采样差异引起的偏差。

实验设计

1 标准化

使用模拟数据，本文说明了现有的归一化方法如何无法消除因样本之间的采样分数差异而引起的偏差，而在ANCOM-BC中引入的归一化方法效果很好。具体而言，本研究比较了本文提出的方法。在metagenome Seq中实现了累积和比例缩放（CSS），在DESeq2中实现了中位数（MED），M值的上四分位数（UQ）和修剪均值（TMM）以及总和缩放比例（TSS）。此外，我们还考虑了在edgeR中实现的UQ和TMM的修改版本。通过将归一化因子乘以对应的库大小来解决“有效库大小”，可以得到这些值，并表示为ELib-UQ和ELib-TMM。本文考虑了以下各种模拟方案。模拟研究的详细信息在补充说明中提供。

（1）两个实验组中的微生物负荷不平衡，每个样品的文库大小均平衡。这导致采样分数的较大差异（图3）。

（2）两个实验组中的微生物负荷不平衡，每个样品的文库大小不平衡。这导致采样分数的适度变化（补充图1）。

（3）在两个实验组中平衡微生物负荷，并在每个样品中平衡文库大小。这导致采样分数的较小变化（补充图2）。

因此，模拟了第1组采样率与第2组采样率有系统差异的数据。即使生态系统中的实际绝对丰度相同，两组中观察到的绝对丰度也有系统差异。为了评估每种归一化方法的性能，引入了一种残差度量，用于估计估计的采样分数和真实的采样分数之间的偏差。如果归一化方法有效，则应消除由于采样分数不同而造成的偏差，以使图3中两组（圆形和三角形）的样品混合在一起，而不是由组标记聚类。从图3（以及补充图1、2）中，我们注意到ANCOM-BC归一化的样本很好地混合在一起，并且没有被组标签聚类。对于大多数其余方法而言，情况并非如此，其中残差按组标签聚类，因此表明它们无法消除两组之间采样分数的潜在差异。因此，在两组中每个分类单元的绝对丰度没有差异的零假设下，其检验统计量不会以零为中心。这导致FDR膨胀。从图3中可以看出，不仅ANCOM-BC可以很好地估计由于采样分数的差异而产生的偏差，而且从ANCOM-BC箱形图的高度可以看出，采样分数的估计差异非常小。这是一个重要的观察结果，因为它表明在“方法”部分中描述的测试统计量中，由于采样分数导致的偏差估计量的变化可能可以忽略。

图3 真实采样分数与每个样本的估计值之间的残差箱形图。

2 DA分析

模拟来自Poisson-Gamma分布的数据，我们根据FDR和功率评估了各种方法的性能。由于没有可用的硬性阈值来让DR宣布一个分类单元是否具有不同的丰富度，因此该模拟研究中未包括该阈值。毫不奇怪，在所有模拟场景中，将标准的Wilcoxon秩和检验应用于相对丰度数据会导致FDR高度膨胀（图4a）。这主要是因为此类标准测试忽略了数据的组成结构，并且从图3可以看出，TSS无法成功地对数据进行规范化。当不同实验组的采样比例不同时，简单地应用非参数测试而不进行任何归一化也可能会带来问题（图4a）。当采样分数存在差异时，RNA Seq文献中两种广泛使用的基于计数的方法，edgeR和DESeq2，通常超过名义FDR水平的5％（图4a）。例如，edgeR的FDR高达40％（图4a），这意味着40％的发现可能是错误的发现。当采样率不恒定时，在metagenomeSeq（ZIG）中使用的零膨胀Gaussian混合模型始终具有最大的FDR（图4a）。在某些情况下，FDR可能高达70％，这可能部分是由于对数丰度数据的Gaussian分布假设。尽管在所有模拟中使用零膨胀log-Gaussian混合模型的metagenomeSeq成功地将FDR控制在5％以下，但是它遭受了严重的功率损失（图4b）。检测差异丰富的分类单元的能力可能低于10％。

图4 使用Poisson-Gamma分布的综合数据进行FDR和功率比较。

3 肠道菌群数据

我们通过分析美国，马拉维和委内瑞拉肠道菌群数据说明ANCOM-BC。该数据集由从美国（n = 317），马拉维（n = 114）和委内瑞拉（n = 99）的受试者获得的11,905个OTU组成。我们首先评估了上述不同归一化方法的性能。一种了解规范化影响的启发式方法是检查规范化样本在非度量多维标度（NMDS）图中根据其表型彼此分离的程度。我们在图5中提供了马拉维和委内瑞拉人口的结果。

有趣的是，马拉维比美国的婴儿和成年人要多得多，例如蓝细菌，细小细菌病，Euryarchaeota和Spirochetes等，这与农村环境和卫生状况有关。我们发现Verrucomicrobia门的绝对丰度中有一个有趣的趋势，已知它的绝对丰度会随着抗生素的使用而增加，以防止病原体和其他细菌的干扰。与西方地区婴儿和成年人中抗生素的大量使用相一致，我们发现相对于马拉维成年人和婴儿以及相对于委内瑞拉成年人，美国的疣状微生物绝对含量显着增加（图6a）。同样，与马拉维相比，委内瑞拉婴儿的绝对丰度显着增加（图6a）。