【原】宏基因组学研究—纵向微生物组数据分析

Mobio_Lab_Sun 2020-02-22

展开全文

1. 宏基因组纵向数据的意义

1.1 纵向数据提供了更多的信息

（b）样本具有时间函数的统计相关性。

2.纵向微生物组数据分析解决的关键科学问题

2.1 幼儿微生物群落的发育

子宫基本上是没有微生物的，从婴儿出生便开始建立个体的微生物群落。婴儿经历了一些列的发展变化，随着时间的推移，这些变化改变了他们的生理结构、生理变化、免疫反应。此外，孩童出生的头几年，饮食和暴露的环境的变化将影响微生物群落的变化，进而影响宿主的代谢和生理。由动物模型的研究表明，在早期生命的某些“窗口期”内，微生物群的组成可以极大地影响免疫系统的发育。

2.2 健康成人微生物群落随时间的变化

微生物群落在儿童期后不会一层不变。健康成年人通过会做出改变微生物群落的行为，包括每天吃不同的食物，通过旅行接触新的微生物群落。
女性和男性生理学上的变化也会影响微生物群落的变化。
随着时间的推移，健康成人的微生物变化的表征可以提供对时间驱动的微生物群落变化因素的观测，同时也为鉴别正常时间驱动的微生物群落变化与其他因素导致微生物群落失调提供了基础。

2.3 微生物群落对扰动的响应

感染、疾病或有意干预，如抗生素治疗、膳食调整，能显著改善微生物菌群。关键问题是，微生物菌群在扰动后是恢复到原来的状态还是最终进入一个新的状态，以及到达平衡状态的速度如何。了解这种扰动对微生物菌群的影响，有助于了解健康状态或益生菌对环境相互作用和医学干预对菌群影响的稳定性，并最终向我们提供如何重塑微生物菌群以造福宿主。

3.微生物菌群按时间序列数据分析的计算方法

3.1 基于回归的计算方法

回归一般公式

Yt表示因变量在时间点的值t。，f（t;θ）是具有参数向量u的时间函数，εt是随机误差项。
通过为f（t;θ）指定不同的函数形式，通用模型可以捕获时间系列数据中的多种趋势。实际上，这种回归模型的输入是一列观测值（例如，OTU丰度）和一列观测值的时间。然后可以使用统计软件包，如R或Matlab来拟合模型。
另一种回归模型称为自回归（autoregressive，AR）模型，它不像前面所列方程，直接回归时间点上的观测值，而是基于之间的观测值回归现有的观测值。从概念上讲，AR模型允许对未来进行预测，并捕捉到对未来事件越来越不确定的现象；相反，直接按时间点回归的模型，则假设在任何时间点预测变量的能力相等。
AR模型的一般公式为：

AR模型公式

此方程指定了一个p阶的自回归模型，表示为AR（p），这意味着t时刻的数据依赖于p个先验数据点。如前述方程所示，Yt表示在时间点t处感兴趣的变量的值，例如，特定OTU的相对丰度。然而，本方程的右侧与前述方程的右侧不同，因为此方程中，时间没有被明确表示出来。相反，时间是由感兴趣的前序变量的值捕获的。
自相关（Autocorrelation）分析，涉及计算时间系列（例如，OTU的相对丰度序列）和不同状态下的自身情况之间的相关性，它提供了探索AR模型阶次的一种快速方法，该方法需要捕获时间系列中存在的依赖项。统计软件包，如R和Matlab，提供了各种各样的函数，可以方便地拟合AR模型，进行自相关分析和可视化图表绘制。

3.2 状态空间模型（State-SpaceModels）

概率性的状态空间模型：假设一个系统的输出或测量依赖于它的状态，它可以随时间而改变。在某些情况下，系统的状态可能直接对应于可观测的量（如温度）。然而，在许多情况下，系统的状态不能直接观察，必须从其输出中推断出来。状态空间模型对于检测系统何时发生实质性变化特别有用。另外，这些模型在分析多个变量时非常有用，因为系统的底层状态可以同时驱动多个变量的行为。
一种广泛使用的一般化状态空间模型是隐马尔可夫模型（HMM），它假设系统在任何给定时间处于离散状态，并且系统在每个离散时间步长内可能会发生状态变化。状态是“隐藏”的，因为它们不是直接观察到的，而是可以使用有效的算法从数据中推断出来的。
HMM的p阶表示当前状态所依赖的过去状态的数目。
标准HMM模型的状态数必须预先指定，尽管非参数贝叶斯HMM已经开发出来，可以从数据中推断出状态数。

3.3 时间模式聚类

在复杂的宿主-微生物生态系统中，微生物物种群体的相对丰度随着时间的推移呈现出相似的变化模式。这些群体或簇可由具有相似代谢或其他功能能力的物种组成，或在宿主体内的微环境中物理位置相对接近的生物种组成。
在不同个体或同一个体内微生物群落，受到不同干预的微生物群体的数量可以告诉我们微生物群体内的相应情况。
这种分类数据的计算方法通常要求用户预先指定分类的数量，然而，在许多情况下，包括在大多数微生物应用中，数据中存在的簇的数量是先验未知的。因此，自动化的和统计原理的聚类方法尤为重要。

微生物计数轨迹无限混合模型引擎（MC-TIMME），是一种专为分析微生物数据而定制的时间序列聚类算法，可以自动从数据中推断出时间模式的数量。
MC-TIMME使用了一种非参数贝叶斯技术，即DirichletProgress，它假设数据来自连续时间模式的无限混合。使用近似推理方法，完全贝叶斯MC-TIME算法估计模型变量上的分布，包括非空混合分量的数目。因此，MC-TIMME提供了所有变量的“误差线”（不确定性度量），包括群体/时间模式的数量和每个时间模式的状态。此外，MC-TIMME通过聚类显示相似模式的多个时间系列的信息，提供了对单个时间模式的更精确的估计。

3.4 实验设计

有原则的实验设计对于纵向研究尤其重要。纵向研究中的采样欠缺，一方面会使系统中的重要变化无法检测。另一方面，过度采样可能非常昂贵，或者在逻辑上不实用，特别是当涉及到人类受试者时。通常，随着时间的推移，复杂的宿主-微生物生态系统可能发生变化的频率是未知的。在这些情况下，需要进行经常抽样的预实验，以收集初步数据，作为研究更大队列的实验设计的基础。