【原】综述 | Nature子刊：微生物组学研究方法，看这一篇就够了（IF：31.851）

微生态 2021-04-13

展开全文

本文由卡内斯坦编译，董小橙、江舜尧编辑。

原创微文，欢迎转发转载。

导读

微生物组学研究主要涉及两方面技术：测序技术和数据分析技术。近年来，这两方面技术都在不断进步。如何为自己的研究选择恰当的技术方法，同时提高研究的规范性以增加结果的可重复性？在本综述中，作者基于当前技术进展对实验方法选择和流程标准化给出了全面的建议。

论文ID

原名：Best practices for analysing microbiomes

译名：微生物组学分析的最佳策略

期刊：Nat. Rev. Microbiol.

IF：31.851

发表时间：2018年

通信作者：Rob Knight

通信作者单位：Center for Microbiome innovation, university of California san Diego, La Jolla, Ca, USA

综述内容

引言

近年来，DNA测序技术和数据分析技术飞速发展。例如，分类分辨率不断提高，错误发生率不断降低。整合宏基因组和代谢组数据的方法、成分数据分析的方法和机器学习的应用也都取得较大进步。研究结果表明，基于精确序列变异体（exact sequence variants）的分类方法较传统基于操作分类单元（OTU）的方法具有明显优势。虽然技术进步极大地提升了研究人员数据分析的能力，但前期实验设计依然应该给予足够重视。常见的实验设计缺陷对研究的可重复性影响较大。因此，在应用微生物组学新方法的同时，不应忽略科学研究普遍要求。

1 实验设计

典型的科学问题，例如病例控制研究和纵向干预研究，都可以采用微生物组学方法进行分析；且基本不受样本来源如何的影响。但要注意根据要回答的科学问题选择恰当的方法。另外，不同方法的分析效能也有所不同。比如，16S rRNA扩增子测序与宏基因组测序的在某些样本上获得结果并不一致。实验过程本身也在一些干扰因素，需要在研究前充分考虑并选择恰当的分组方法和设置对照，以降低其对实验结果的干扰。严谨的实验设计对结果的准确性有决定性作用。

首先，针对课题选择合适的研究类型：（1）横断面研究可用于研究不同人群之间微生物群落的差异。例如，健康人群和患病人群，或者生活在不同地域的个体。但在实验设计中应排除饮食差异、用药与否和生理学差异的影响。（2）纵向研究，特别是前瞻性纵向研究，通过比较用药前后的微生物群落的变化能够阐明药物的影响。此类研究应仔细规划样品采集时间，比如不同的受试者采样时间应一致。（3）介入性研究，包括随机双盲对照研究，可用于评价治疗对微生物组和疾病的影响。

其次，提前确定数据分析方法和要回答的具体问题有助于明确实验所需的样本量。例如，测试新的广谱抗生素对小鼠肠道微生物群的影响，比确定肠道微生物群变化，需要更大的样本量。同时，应采用适当的方法评估统计效能，以降低实验过程中干扰信号对结果的影响。目前微生物组研究中统计效能和效应量化分析仍存在不少问题。目前使用的相关分析方法主要基于PERMANOVA、Dirichlet Multinomial或者随机森林分析（random forest analysis）。这些分析方法的改进，不仅对研究设计和样本量选择有指导作用，对整合宏基因组、宏转录组、宏蛋白质组和宏代谢组数据集也有很有帮助。

最后，对于某些尚无成型规范的特殊实验设计，建议参考具有相似样本类型和预期成果的成功研究范例。

对照设置和排除标准

在病例对照研究中，必须适当选择和设置对照。年龄和性别是常见的对照因素，尽管性别对微生物组的影响相对较弱。药物治疗和饮食也必须严格控制。环境研究也需要考虑类似的因素。文献表明，不同地块的差异是常见的干扰因素，应该通过嵌套统计检验加以排除。通过设置对照获得全面数据，并在此基础上排除干扰因素对结果的影响，是研究成功的关键。

定义明确的入组和排除标准能够最大限度地限制协变量的干扰。例如，研究表明，抗生素干预后个体微生物群恢复需要6个月。因此，应排除过去6个月内接受抗生素治疗的个体。同样，洗手后皮肤微生物组的恢复需要约2小时。

动物模型

用于微生物组学研究的动物模型主要是啮齿类动物，如小鼠。其他模式生物，如短尾鱿鱼、昆虫和斑马鱼，主要用于研究宿主和微生物之间的特定相互作用（例如，微生物组与宿主遗传特性之间的相互影响）。啮齿动物，因与人类的生理相似性和样本可及性，是微生物组学研究的最优选择。

啮齿动物中的微生物组学研究中需要注意以下三个方面：（1）笼养效应。吃食粪便的习惯导致同笼啮齿动物的粪便微生物组随时间推移会逐渐接近。因此，必须在多个笼子中重复实验以控制笼养效应。（2）早期微生物暴露和父母的影响。单个研究应选择生产和早期生活环境都类似的小鼠。同窝仔需要在不同笼之间随机。（3）环境因素。饮食、垫料、供应商、运输条件和饲养设备等都会对小鼠微生物组有影响。

类似的因素也适合其他模式生物，如斑马鱼。

技术方法

微生物组研究的每个步骤都有多种技术和试剂盒可供选择，但单个研究内部统一步骤应具有操作一致性。在DNA提取、PCR和测序过程中可加入空白对照，以避免该步骤发生污染。可能的情况下，尽量将样本保存在-80°C。这样能够有效降低污染微生物的增殖而导致污染数据的比例升高、避免运输过程中微生物增殖导致的结果偏差。如果冷冻无法实现，可采用95%乙醇或者商品化试剂（如RNAlater、OMNIgene Gut）进行保存。不同测序批次间用模拟菌落（菌落组成已知的参考样本）进行数据标准化。

图1 微生物组学实验设计需要考虑的因素

2 测序靶标和方法

测序方法主要分为三种：标记基因测序、宏基因组测序和宏转录组测序。标记基因测序可获得高深度但低分辨率的数据；宏基因组测序提供的DNA信息更为广泛，能够实现菌株分辨、生物功能预测；依靠总RNA进行的宏转录组测序主要用于表征微生物群的基因表达。应根据所研究的问题、假设、样本类型和分析目标选择恰当的测序方法。下面我们主要从成本、稳健性、分辨率和难度等方面对上述三种方法进行比较。

表1 不同基因组测序方法研究微生物群落的优劣

图2 16S rRNA、宏基因组测序、宏转录组测序的最佳流程

标记基因测序

标记基因测序测定目标基因的特定区域，进而确定样品中微生物群中微生物的种类和丰度。所选的特定区域通常包含高可变区（用于进行种属鉴定）和高度保守的侧翼区域（PCR引物的结合位置）。常见的区域是细菌和古细菌的16S rRNA，以及真菌的内部转录间隔区（ITS）。标记基因测序是获得微生物群落结构低分辨视图快速经济的办法。该方法的适用范围极广，尤其对于受宿主DNA污染的样本（如组织和低生物量样本）具有较好的适用性。这种方法的主要问题是PCR扩增期间的诱导偏倚，即不同基因并非完全等比例扩增。造成这种偏倚的因素包括可变区本身、扩增子大小、PCR循环数、引物设计、样品含量过低。虽然优化引物可以减少偏倚，但即是最优秀的引物一般也只能获得属级别的分类学分辨率。

全序列宏基因组测序

宏基因组测序对样品中所有微生物基因进行测序。与标记基因测序相比，宏基因组测序获得基因组信息更详细、分类学分辨率也更高。但样本制备、测序和数据分析的成本也更高。如果给定足够的测序深度，宏基因组测序能够准确分别出物种或者菌株信息，还能够从短片段DNA拼接出整个微生物的基因组全序列。但从头基因注释难以实现。宏基因组测序能够从基因水平描述整个微生物群落的生物功能。相较于标记基因过程中的偏差，研究人员对宏基因组测序在文库构件、组装和注释过程中引入的偏差目前了解较少。随着技术的发展，基因注释的能力将逐步提高。

宏转录组测序

宏转录组通过RNA测序来分析微生物中的转录情况，从而提供有关基因表达和微生物功能的信息。标记基因测序和宏基因组测序测定样本中的DNA，因此它们不受细胞活力和活性的影响。而宏转录组测序一般主要用来分析具有活性的细胞，且对高转录活性的生物体具有偏向性。当然，宏转录组测序对去除DNA的死细胞的RNA进行分析。高丰度的宿主rRNA是常见的污染源，因此应将其去除。RNA较容易降解，应小心保存。某些样本的RNA提取需要采用特殊的纯化方法。例如，土壤样品需要去除具有酶抑制活性的腐殖物质。在标记基因测序和宏基因组测序之外，宏转录组测序为了解微生物群的特征提供了另外的视角。不同个体之间，宏转录组的变异比宏基因组要大。

3 数据分析

同时使用以上三种测序方法对样品进行测序分析是最理想的情况。但有些样本可能不适合其中某一种方法，这时就需要根据研究目的进行选择。如果预算有限，我们建议进行宏基因组测序而不是标记基因测序。不过，通常的做法是先通过标记基因测序获得微生物群落的低分辨率分类学数据；然后，在此基础上，对某些样本采用宏基因组测序进。

标记基因测序数据分析

标记基因扩增子测序数据分析的第一步是去除测序错误：尽管测序错误率非常低（例如，在Illumina测序中，每个核苷酸的错误率大约是0.1%），但大多数的序列多样性仍然是来自测序错误。传统的分析方法是将相似序列聚类（通常以97%相似性作为阈值），称为操作分类单元OTU。这种方法将真正的SNP和测序错误都暂时忽略，在进一步分析OTU内部差异时才会进行考察。Oligotyping通过以下两种方法提高了OTU分组的精准度：（1）包含16S rRNA测序的位置信息以确定核苷酸变异；（2）区分相似但不一致的分类。Deblur和DADA2等算法利用核苷酸差异信息将DNA序列分到完全一致的组里，称为subOTU。获得的分析结果是DNA序列和序列计数，而不是OTU及其计数。我们建议用新方法替代传统的OTU法。当然，某些特殊情况除外。比如，同时处理不同技术、不同引物产生的数据时。

另一个关键的步骤是将分类名称分配给数据中的微生物序列。分类通常是由机器学习方法完成，如RDP分类器（在属水平上的准确率大约为80%）。流行的微生物组学分析包，如QIIME和Mothur等，都提供这一工具。原则上，与参考数据库进行精确比对能够得到更为准确的分类信息。但是，由于存在大量无法分类的序列，比对结果的灵敏度较差。基于较短的标记基因序列从头构建的系统发育树准确度也较差。将测序结果插入到基于全长序列构建的系统发育树相对更为客观。在进行序列分析前，应先去除细胞器（线粒体或叶绿体）的基因组。

功能预测是根据获得的标记基因序列对微生物群的宏基因组和生物功能进行预测。首先通过与参考数据库比对产生OTU表；对每个OUT基于进化模型给出预测的置信区间：离参考序列较远的分支，置信区间较宽；离参考序列近的，则较窄。因此，参考序列的全面与否直接影响分析结果的精确度。另外一个影响因素是某些细菌的16S rRNA可变区非常相似，尽管他们存在明显的形态学和遗传学差异。

宏基因组和宏转录组数据分析

基于read的分析方法，将未拼接的read与数据库比较，从而进行分类和注释。Kraken等采用k-mers的策略，将分类学信息分配给长度为k的片段；Bowtie2和Centrifuge等利用Burrows-Wheeler转换，将相似序列合并后再进行分类；MetaPhlAn2和TIPP等采用标记基因策略，利用特异的基因组区域（普遍存在的单拷贝序列）进行分类。HUMAnN2等工具能够对标注基因和代谢途径信息。而MEGAN等包含以上两种功能（片段分类以及基因和代谢途径标注）。基于read的方法是单独分析每一个read，因此能够方便地扩展到大型的复杂数据。例如，土壤微生物组数据。因为要将每一个read和数据库比较，数据库的选择就显得尤为重要。对于人类肠道等特征明显的数据，应选择有针对性的数据库（如基因数据库RefSeq，蛋白质数据库Pfam或UniRef）以提高结果的准确性并降低计算成本。对于特征不清晰的样本，应考虑NCBI nr和nt以及IMG/M等大型数据库。因为数据库较大，计算的复杂性增加，但分析结果的特异性却较低。某些特定种类或者功能分析，需要借助专门的数据库：噬菌体采用PHASTER，抗生素耐药基因采用Resfams，环境样本采用FOAM。很多样本类型都有对应的宏基因组数据库目录：如Tara针对海洋样本，BGI针对小鼠肠道样本，MetaHit针对人类肠道样本。

另外一种分析宏基因组和宏转录组数据的方法是将短read拼接成长序列。这些长序列可以进行分类，或者进一步拼接得到部分甚至全部微生物基因组。这样不仅能够获得分类学信息或者基因信息，甚至能够获得通路信息、构建代谢通路（此类工具有antiSMASH）。这种方法并不是普遍适用的。当样品的生物多样性较高、样品中存在多个相似菌株或者覆盖率较低等将会导致拼接结果的碎片化，从而使下游分类学信息不够准确。例如，由于高生物多样性和分布不均匀，土壤样本通常难以组装。如果不存在以上问题，宏基因组的拼接结果将为宏转录组的read策略分析和拼接策略分析提供极好的参考数据库，甚至能够找到之前数据库中不存在的“微生物暗物质”。基于拼接的分析工具metaSPAdes和MEGAHIT值得推荐。在拼接某个微生物部分或者全部基因组的过程中，MaxBin2和CONCOCT通过评价核苷酸组成和样品间的丰度模式，将长序列归给某个基因组。CheckM通过分析普遍存在单拷贝基因对分组和拼接的结果进行评价，如序列的完整性和污染是否存在。VizBin等可视化工具在不与参考数据库比对的条件下展示宏基因组序列的聚集形式，让研究者能够据此判断分组的合理性。因为基于拼接的分析方法较为复杂，建议使用工作流使数据处理自动化。这方面的工具有Anvi’o，ATLAS和MetAMOS。

对于read数存在差异的数据，归一化的方法有每百万中read数（依据reads总数）、每一千个碱基的转录体个数（依据read数和read长度）或者将数据转化成相对丰度。这方面的工具也较多，比如，edgeR和DESeq2。

4 更高等级数据分析

微生物群之间的模式差异一般用α多样性和β多样性描述。α多样性对单个样本中的特征多样性进行量化，并且可以进行样本间比较。物种丰度（测定物种的数量或者Chao1丰度估计）和系统发育分析分布（Faith’s系统发育多样性）都对序列数量敏感。结合丰度和均匀度的方法（Shannon指数）能克服这一问题。α多样性分析只适用于16S rRNA数据。β多样性比较每对样本之间的特征差异，生成所有样本之间距离矩阵。定量矩阵（Bray-Curtis，Canberra和加权UniFrac）依据物种丰度值进行计算；而定性矩阵（binary-Jaccard和不加权UniFrac）仅考虑物种存在与否。系统进化分析（UniFrac）能够对数据进行生物学描述。这种分析需要构建进化树，对于不存在进化树的组学数据无法进行此类分析。QIIME、Mothur和R package vegan都可以进行α多样性和β多样性分析。非参数置换分析PERMANOVA和ANOSIM可用于评价显著的β多样性聚类；PERMANOVA在组内分散性变化较大的数据上表现较好。控制测序结果的数据量对与获得有意义的α多样性和β多样性至关重要。因为不同样本间数据量的差异经常达到几个数量级。UniFrac通过稀释策略解决这一问题。但对于成对的丰度差异比较必须使用全部的测序数据。

β多样性数据可以借助主坐标分析（PCoA）或主成分分析（PCA）进行可视化，并通过对样本进行分类着色从而实现自动聚类。EMPeror提供了交互式操作PCoA图的平台。

另一种分析方法是考察不同样本间存在丰度差异的微生物或功能单位（基因或通路）。比较微生物的丰度差异是一个具有挑战性的课题。因为每个样本的数据都是高维的（包含数千个分类）、稀疏的（存在很多0）且混合组成的。因总和为1，当一种微生物的比例增加时，其他微生物的比例必然减少。这导致传统的比较方法（参数检验法或Spearman秩检验）常出现高于90%的错误率。最近，将组成性纳入考虑的新方法很好地解决了这一问题。一种方法是在统计检验中加入强烈的生物学假设。如Lovell’s的比例矩阵仅关心正相关；其他广泛使用的且针对微生物组数据优化的工具，如SparCC何SPEICEASI，假设很少物种相关。我们推荐另一种方法，它不假设物种很少相关，而是对微生物群落之间的差异进行等对数比例转换（ilr）。这种方法能够降低假阳性的原因是它比较的是微生物丰度对数比例的差异，也就是平衡。这种平衡可以借助先验的知识进行构建，如进化史或者对特定环境因素刺激（如低pH）的反应。用ilr进行数据处理后，即可以采用标准的统计方法进行分析，如多变量分析、线性回归和分类等。另外一种新方法是结合绝对数据量和细胞数进行分析，同样也能解决组成性问题。

机器学习被越来越多地应用于微生物组学数据分析，比如依据现状进行分类或者预测微生物群未来状态。例如，可以根据口腔微生物群的状态对牙龈炎的严重性和易感性进行建模分析。机器学习技术随机森林回归被用于从回溯身体死亡时间到测定儿童发育过程中微生物群落成熟度。SourceTracker能够对微生物群落的来源进行分析。根据样本的来源环境它能够对样本进行很好地分类。机器学习技术需要大量的样本数据，同时还需要交叉验证、独立的测试数据集或者实验证实。

5 多组学数据整合

整合多组学数据——包括标记基因测序数据、宏基因组、宏转录组、宏蛋白质组、宏代谢组以及其他组学数据——能够获得特定微生物群的构成和功能的全面信息。但这项工作并不容易。比如，基因表达和代谢的时间尺度不同，微生物的很多代谢物是对环境应激的结果。另外，和宏蛋白质组相比，宏基因组和宏代谢组更加稀疏，这也带来技术上的难题。不过，可喜的是用于多组学数据整合的工具越来越多。例如，XCMS在线能够整合宏代谢组学与代谢通路、蛋白质组和转录组。虽然传统的相关性检验方法（如Pearson和Spearman）能够对成对数据的某些特征进行跨组学相关性检验，但因为组学数据的稀薄性和高维性，这些方法易产生假阳性。Procrustes分析采用降维数据，能够判断一个数据集中的距离模式（向量空间而非单个特征）是否在另一个数据集中出现。另一些方法在考虑样本间关系的同时整合多组学数据（比如，比较健康组和疾病组）。这类方法包含惯性分析（使用降维数据对两个样本组的多个数据集进行整合）、偏最小平方法以及相关的规范相关分析、稳健稀疏规范相关分析（一种处理稀疏组学数据的方法变体）。

图3 其他组学数据与微生物组学数据整合

先进的集成分析工具通过集成GNPS组件获得分子网络分析功能，从而能够发现代谢物和代谢通路信息，同时还集成通用系统性生物分析工具。这方面比较突出的例子是XCMS在线。多组学研究正在从空间模式的发现逐渐扩展到时间模式的研究。工具“ili”提供的空间映射功能让多组学分析结果可视化，为研究人员解读数据提供了极大的方便。

多种统计学方法都可用于整合分析多组学数据，但他们在微生物组学上的表现欠佳。另外，找到不同组学数据之间的相关性只是第一步。下一步的工作是建立因果关系、找到多数据集之间的相关性。表3列出了整合微生物组学和代谢组学的实例，并给出了进行相关性和因果分析的工具。因为组学数据包含成千上万的微生物和代谢物，很多相关性都是随机产生的假象。因此，非常有必要对多组学数据中的比较结果进行修正。显著性分析的修正方式包括Benjaminl-Hockberg修正提供的错误发现率（false discovery rate）以及更保守的Bonferroni修正的家庭式错误（family-wise error）。充分考虑数据的稀疏性和组成性，并用上述方法进行结果修正能够有效避免大规模多组学数据比较中的错误发生率。

综述结论

本综述中，我们讨论了微生物组学研究各个环节对实验结果和生物学解读的影响。其中很多步骤造成的结果偏差远超出真实的差异范畴。为对多个研究进行比较和整合，非常必要对研究进行标准化。目前这方面的工作已有初步进展。例如，国际人类微生物组学和微生物组学质量控制（MBQC）。这些标准化方法采用生物信息学工作流程和对照，结合云平台上运行的开源算法，让研究人员不仅可以重复文献的内容，也提高了组学研究的一致性和可比性。标准化的工作不仅涉及制定各种实验标准流程，还包括建立标准化的真实生物样本。这类样本可用于定量分析微生物组学分析的系统准确性。

本文重点介绍的是群落水平的DNA分析。随着表达分析和单细胞分析的不断发展，类似的考虑也适用于这两个领域。借鉴过去失败的教训、采用标准化的操作流程，必将极大地加速这些领域的发展。另外，随着数据量的急剧增大，充分考虑各种流行病学干扰因素、进行更加仔细的纵向实验设计变得越来越重要。随着人体实验、模式动物实验和体外组织实验数据获得和处理技术的进步，干预性研究相对观察性实验的优势也变得更加明显。随着技术标准化的建立和优秀方法的广泛传播，微生物组学研究的结果必将走出实验室，进入临床应用、现场应用和环境应用。

微生物组学研究需要有效结合实验技术和生物信息学技术。尤其生物信息学技术的进展，简直可以用日新月异来形容。各种生物学工具“乱花渐欲迷人眼”，希望作者系统的介绍能为大家“昨夜西风凋碧树，独上高楼望尽天涯路”。同时作者也指出，实验设计才是基本功夫，“基础不牢，地动山摇”。

谢谢大家阅读~欢迎交流