【原】科研 | Cell Reports：整合的宏基因组基因集揭示了对小鼠肠道微生物组的新见解

微生态 2021-04-13

展开全文

编译：逍遥君，编辑：小菌菌、江舜尧。

原创微文，欢迎转发转载。

导读

肠道菌群是一个动态的、高度多样化的微生物生态系统，影响宿主生理的许多方面。鸟枪法宏基因组测序等非培养依赖性方法彻底改变了表征和研究这些群落的实验方法。基因目录和宏基因组组装基因组（MAGs）的集合有利于测序数据的分类和功能注释，从而最大限度地从短读段中获得信息。通常，参考基因目录的生成涉及样本特异性组装、基因的预测和基因条目的全数据聚类，以减少冗余。然而，这种方法导致基因条目的分类分辨率降低。这是由于高度相关但截然不同的基因的聚类和缺乏高分辨率的分类学信息，这可以最好地从16S rRNA基因等标记基因中获得，为此存在大量的参考集合。然而大规模宏基因组方法的一个挑战是将特定的16S rRNA基因序列与MAGs连接，这通常导致低连接率。这里我们提出了一个全面的方法和相应的计算工作流程来构建整合的基因目录，使得基因条目的分类分辨率得到了显著的提高，同时将基因与MAGs连接并重建了全长16S rRNA基因。整合的小鼠肠道宏基因组目录（iMGMC）由298个公开的和新测序的宏基因组样本构建而成。而且，我们提出了一组从898个宏基因组测序样本的单独单样本组装中获得的额外MAGs，连同整合到iMGMC中的MAGs，组成了1296个物种水平的细菌基因组。

论文ID

原名：An Integrated Metagenome Catalog Reveals New Insights into the Murine Gut Microbiome

译名：整合的宏基因组目录揭示了对小鼠肠道微生物组的新见解

期刊：Cell Reports

IF：8.109

发表时间：2020.03

通讯作者：Till Strowig

作者单位：汉诺威医学院

论文框架

结果

1 小鼠iMGMC的构建

已有研究成功构建了几个基因目录，其中包括包含260万个非冗余基因的来自小鼠肠道的微生物组基因目录（MGCv1）。为了补充该目录，研究人员提出了一种综合的方法和相应的计算流程来构建整合的基因目录，显着改善了基因条目的分类学分辨率，并将基因链接到MAGs和重建的全长16S rRNA基因（图1A和1B）。本研究将这种方法应用于实验室小鼠和野生小鼠（n=108）的检测，并结合之前发表在MGCv1中的一组数据（n=190）。298个宏基因组样本总数据量为1.3 Tbp，组装为大小为4.5 Gbp的120万个重叠群（contigs），包含460万个开放阅读框（ORFs）。由于样本数量和方法的变化，相比MGCv1（260万个ORFs）大大增加了77%的ORFs（图1C）。通过对ORFs进行聚类检测了其冗余性，结果表明重复率只有2%，由于冗余较低，因而在iMGMC中保留了所有的ORF。随后，重叠群被装箱，共得到1462个bin（>200 kbp），占iMGMC条目的87%，只有13%的条目仍然存在于小于200 kbp的重叠群或bin中。然后，基于已经建立的细菌标记基因集，使用CheckM（完整性-污染≥80%）将660个bin定义为iMAGs（integrated MAGs，占iMGMC ORFs的40%）（图1C、1D）。根据最新的质控标准，iMGMC含有908个中等质量的MAGs（mMAG，完整性>50%，污染<10%）。对比发现，MGCv1不包含MAGs，而是CAGs（co-abundance groups），CAGs至少包含700个基因。CAGs数量和CAGs中基因数量的比较显示，与MGCv1相比，iMGMC均大幅增加（分别为1217 VS 541个CAGs和81% VS 40%的基因）（图1C）。

此前大部分宏基因组重建微生物基因组采用的是单样本组装，而不是一体式方法。单样本组装，metaSPAdes的性能优于Megahit，但是，metaSPAdes无法用于一体式方法。因此，通过对使用两种方法从上述数据集（n=298）获得的结果进行了比较。结果显示，当对MAGs数量进行评估时，一体式方法优于该数据集的单样本组装。并且一体式组装特异性bin具有较低的相对丰度，表明该方法可能适用于回收低丰度微生物（图S1）。为了比较两种方法组装MAG的质量，鉴定了以前已知的相关细菌基因组（n=26个MAG），比较发现MAG质量相等（表S2）。因此，尽管采用了不同的方法，但对于分析的数据集，一体式汇编与单样本汇编所的结果类似，同时为iMGMC的构建提供了明显的优势。

经典基因目录中条目分类的匹配率易受到基于相对较短ORF预测分类位置的算法能力的限制，特别是在样本特异性组装和通过相似性对ORF进行分类后。因此利用无聚类方法，使用从各自的基因、重叠群和bin获得的分类信息注释了每个iMGMC条目（图1E）。结果显示，在不同的分类学水平上，相对分类匹配率提高了28%至1021%（图1E）。为了评价iMGMC数据的性能，将3项外部研究（Everard等人；Suez等人；Levy等人）映射到两个目录。结果表明映射到iMGMC的读取数量显著增加（高达36%）（图1F和1G）。因此，通过结合298个额外的样本和本研究优化的组装策略，对原有的基因目录进行了改进，得到了iMGMC。

图1 iMGMC的生成和评估。（A）该流程图展示了用于生成iMGMC的步骤和生物信息学工具（名称在括号中）。此资源包括基因，MAGs，16S rRNA基因序列和MAG-16S rRNA gene links。（B）流程图显示了用于单样品组装方法的步骤和生物信息学工具（括号中的名称）。（C）比较以前的小鼠肠道基因目录（MGCv1）和iMGMC之间基因条目的相对数量和总数以及它们与不同完整度的bins的关联。bins包括CAG（长度≥200 kbp且包含ORF的数量≥700）和MAGs（经CheckM评定质量≥80%）。（D）通过分析标记基因的完整性和污染性（CheckM标准），对单个合并的contigs进行质量测定。箱型图分别显示了660个iMAGs和802个CAGs的标记基因完整性和污染性。数据以箱型图的形式显示，代表10％，第一四分位数，中位数，第三四分位数和90％。（E）基因条目的绝对数量根据ORF，contigs或bin的最低分类标准注释上色。分类使用了不同的分类器：ORF使用DIAMOND-BlastP，contigs使用CAT（contig注释工具），bins使用GTDBTk（基因组分类数据库工具包）。（F和G）MGCv1（红色）和iMGMC（绿色）数据映射率和分类学的比较。

2 16S rRNA基因序列到MAGs的重组与连接

由于16S rRNA基因具有高度保守区，因而通过较短的测序数据通常无法高效地进行重组，因此有必要开发一种可从宏基因组测序数据重建16S rRNA基因的专用工具。从iMGMC数据集中，使用RAMBL组装了1323个全长的16S rRNA基因序列。我们假设将16S rRNA基因与bin和iMAGs联系起来可以有效地整合功能和分类信息。然而，目前没有用于创建此类连接的方法。因此，本研究设计了一个结合映射和基于相关性关联的综合得分，以将16S rRNA基因序列分配给每个bin(图2A和S2)。为了评估这种方法的可行性，使用了791个已知基因组生成的合成数据集对其进行了评估。该数据集包含64个不同的样本，这些样本是使用一体化方法组装的，产生了438个mMAGs。使用RAMBL重建16S rRNA基因序列构建iMGMC数据集(n=460)。这438个mMAGs中，204个符合iMGMC质量标准(CheckM：完整性-污染≥80%)，并且其中163个MAGs(79%)，可以指定为重构的16S rRNA序列。使用FastANI将MAGs映射到参考基因组，从而鉴定每个MAG的金标准16S rRNA基因。值得注意的是，使用该连接方法预测了103个MAGs(63.2%)的16S rRNA基因序列可能是最好的（与金标准16S rRNA基因序列相一致）（图2B）。剩余的60个序列中，至少在科水平上可以通过16S rRNA基因和MAG的分类差异筛选出29个。在其余31个bins中，15个bins的16S rRNA基因序列与金标准密切相关，另外16个bins(9.8%)与金标准不同。由于使用该方法所得结果较好，因而首次对iMGMC执行了自动化方法。在iMGMC中使用参考基因组16S rRNA基因序列链接的MAGs对预测的MAG-16S rRNA基因对进行评估。在47个确定的基因组和相应的bins中，28个和16S rRNA基因之间完全一致（100%序列一致），另外7个匹配的分类学指定为属水平。其余12个基因组和bins在不同的分类学水平上存在差异（图2C；数据S1），这一结果与合成数据集性能相似。为了提高质量，手动校正以排除MAG和16S rRNA基因之间在分类学水平（大于家族水平）上显著不同的MAG-16S rRNA基因，主要为16S rRNA基因多次与不同的MAGs/bins关联。最后，在iMGMC中，660个iMAGs中的485个(73%)被指定为唯一的16S rRNA基因序列（图2D）。总之，这表明提出的方案能够极大地改善（尽管不是以无错误的方式）将MAGs和bins与相应的重建16S rRNA基因相关联，从而可更好地分析数据。

图2 重建16S rRNA基因与MAGs的链接方法。（A）通过结合基于映射和统计方法将MAGs与16S rRNA基因序列链接的方法学概述。得到的MAGs连锁对和重建的16S rRNA基因序列，连同KEGG注释，用于构建小鼠肠道特异性PICRUSt预测。（B）链接方法与模拟数据的评价（CAMI2小鼠肠道）。（C）iMGMC与NCBI参考基因组的连接评价。（D）包含重建的16S rRNA基因序列的系统发育树。分类组突出显示。外环中的颜色表示存在连接的MAG（蓝色）或CAG（绿色）。

3 通过iMGMC中的16S rRNA基因链接改善功能预测

微生物参考基因组数据库的建立推动了基于标记基因数据集模拟基因组功能谱的方法的发展，例如16S rRNA扩增子谱。由于鼠肠道内许多细菌缺乏参考基因组，因而我们认为通过默认的基于PICRUSt的小鼠相关宏基因组功能预测是有限的。通过将MAGs连接到16S rRNA基因序列，我们构建了一个优化PICRUSt版本(PICRUSt-iMGMC)，即使用原始PICRUSt算法结合iMGMC数据（图3A）。通过比较PICRUSt和PICRUSt-iMGMC预测的KEGG同源图谱与相应的鸟枪法宏基因组文库（全基因组测序，WGS），结果表明PICRUSt-iMGMC与基于WGS的KO谱的相关性高于PICRUSt（Pearson：0.84 vs 0.68，+23%；Spearman：0.84 vs 0.70，21%）（图3B、3C）。其中结肠样本的相关性最高（图S3）。采用未用于构建目录的其他数据集也获得了相似的改善，如来自野生型小鼠的样本（图S3）。PICRUSt-iMGMC相关性的改善很大程度上来源于灵敏度的提高，即真阳性率的降低，而不是假阳性率的降低，使得能够预测原方法丢失的功能（图3D、3E）。因此，本研究得到的iMGMC能够显著改善宏基因组学功能谱的预测。

图3 小鼠肠道菌群优化PICRUSt-iMGMC模型。（A）本研究中使用的PICRUSt工作流程：（1）针对GreenGenes数据库，从紧密参考选择的操作分类单元(OTU)开始，使用预先计算的基因组预测文件，对终端用户进行默认工作流程，依赖于功能宏基因组预测。（2）新型PICRUSt工作流程从de novo-picked OTUs开始，利用具有16S rRNA基因链接的iMAGs创建生态系统特异性功能宏基因组预测。（B-E）为了比较使用16S rRNA基因扩增子测序的默认PICRUSt和PICRUSt-iMGMC生成的PICRUSt-KO图谱与鸟枪法宏基因组测序(WGS)确定的真实KO图谱，分析了不同解剖位置的样本（n=50）。（B）WGS和默认PICRUSt（红色）或WGS和PICRUSt-iMGMC（绿色）测定的宏基因组KO图谱之间的相关性，使用Pearson和Spearman相关系数。进行双尾配对t检验分析差异；****p<0.0001。数据表示n=50个样本，并显示为箱型图，代表最小值、第一四分位数、中位数、第三四分位数和最大值。（C）使用来自不同解剖位置的默认PICRUSt（红色）、PICRUSt-iMGMC（绿色）和WGS（蓝色）生成的KO配置文件的比较。进行了非度量多维标度(NMDS)以可视化相似性。（D）通过比较默认的PICRUSt（红色）和PICRUSt-iMGMC（绿色）KEGG模块预测与WGS结果，获得假阳性率和真阳性率。真阳性率反映了WGS和默认PICRUSt/PICRUSt-iMGMC共同预测的KEGG模块的分数，假阳性率反映了默认PICRUSt/PICRUSt-iMGMC预测但WGS数据中不存在的KEGG模块的分数。（E）KEGG模块预测，默认PICRUSt和PICRUSt-iMGMC预测之间存在差异。将所有样本的默认PICRUSt和PICRUSt-iMGMC的KEGG模块预测与WGS进行比较，并使用Wilcoxon检验确定完整性的显著差异（错误发现率[FDR]校正）。热图显示选择的KEGG模块，PICRUSt-iMGMC和WGS之间的完整性高度相似，但默认PICRUSt和WGS之间的完整性不同。

4 iMGMC揭示了小鼠肠道菌群中先前未知分类群的普遍性

宏基因组和基于培养的研究都表明，与人类肠道微生物组相比，小鼠的肠道微生物组由截然不同的细菌物种组成，其中许多微生物组仍难以培养，缺乏基因组信息。对660个iMAGs的分析证实了这一观点，其中只有52个是已知物种（表S2和S4）。

为构建小鼠肠道菌群全面的系统发育树，我们使用iMAGs和先前测序密切相关的基因组（n=64）构建系统发育树（图4）。与先前的报告一致，我们的分析证实了小鼠肠道微生物组总体上由两个主要门组成：厚壁菌门（77%的MAGs和73%的16S rRNA基因序列）和拟杆菌门（14%/18%）（图4）。拟杆菌门包括第二大MAG群，即Muribaculaceae科(64%/49%)，该家族在小鼠肠道中大量存在。但是大于13%的MAGs缺少参考基因组（例如，科或目），例如ClostridialesvadinBB60（n=70）和Mollicutes RF9（n=14）（图4）。

为了增加小鼠肠道微生物组中MAGs的分类学匹配率，我们对来自36项近期研究的数百份额外样本(n=576)（表S1）应用了可扩展的单样本组装方法，回收了13619个mMAGs。对874份样本的mMAGs进行联合后，我们获得了1296个mMAGs，代表了来自小鼠肠道的不同细菌集合，分析发现其中只有134个可匹配上；此外，还将mMAGs与最近建立的整合肠道基因组（IGG）数据库进行了比较，该数据库包括通过宏基因组学和分离菌株测序从人肠道中回收的微生物基因组的去重复集合。在1296个mMAGs中，只有118个IGG可匹配上。因此，超过88%的物种代表潜在的新物种。对于iMAGs，重建的16S rRNA基因序列与几个数据库的比较表明未知序列的比例更高。例如，1323个中只有164个（12%）可与NCBI RefSeq匹配（表S6）。

因此，本分析表明未知分类群是普遍存在的，无论使用何种现有的分析方法，但通过本研究的分析确定了在未来的研究中值得关注的分类群。

图4 iMGMC中包含的660个iMAGs的系统发育树。MAGs显示为三角形，用于比较的64个密切相关的、之前测序的细菌显示为星号（来自NCBI RefSeq的基因组，映射率>50%覆盖率）。三角形的颜色表示它们与不同门类的分类关联，三角形的大小表示在所有iMGMC样本中的流行率。基于CheckM标记基因建立系统进化树。一些分类群的名称在树上完整显示或缩写。对于这种分类学鉴定，我们使用了SILVA数据库。内环显示了在21个研究的小鼠提供者中660个iMAGs的相对丰度（阈值：0.1%）。最后三个环显示了660个iMAGs中 469个在不同解剖部位的相对丰度（阈值：0.1%；SI，小肠）。外条形图显示了其各自的最大相对丰度。

5 不同品系小鼠独特的微生物和功能

通过16S rRNA扩增子序列的研究分析证明，不同品系鼠的微生物组组成不同。然而，由于已有研究表明在大于95%的小鼠中均可检测到相同的26个CAGs，因而认为各品系小鼠均存在一组相似的核心细菌。为了进一步验证，本研究分析了所有298个样本中每个iMAG的丰度，结果表明每个品系的小鼠都有一套独特的MAGs组合。其中，至少一半的鼠均拥有大约10%的MAGs（70/660）（图5A）。在所有鼠（20/21）中均存在的MAG为Lactobacillus murinus ASF361。接下来分析了至少三分之二鼠共享的MAGs（n=21），其中大多数在分类学上属于厚壁菌门（n=18），2个属于Muribaculaceae科（Bacteroidetes门），1个与Mucispirillumschaedleri（Deferribacteres门）相同（图5B）。这些MAGs的相对丰度显示了提供者之间的差异（高达100倍），表明这些微生物的丰度受到环境因素（品系）的影响。

利用MAG和16S rRNA基因序列之间的联系，使用IMNGS（集成微生物NGS平台）评估储存在sequence Read Archive(SRA)中的所有16S rRNA扩增子数据集中相应16S rRNA基因序列在各品系鼠间的分布和相对丰度（图5C）。在来自小鼠肠道的所有样本（n=9496）中，最普遍存在的MAGs（Lactobacillus murinus）占36%，但在人类肠道和大鼠肠道菌群样本中基本不存在（1.4%阳性）（表S6）。为了评估重建的16S rRNA基因序列是否代表小鼠中常见的分类群，采用IMNGS并查询了所有1323个16S rRNA基因序列，以评估其在不同生物多样性衍生的SRA样本中的相对丰度（图5D、5E）。在小鼠肠道、小鼠皮肤、大鼠肠道或人类肠道中富集的569个序列中，44%的序列在小鼠肠道中普遍存在，另外6%的序列与小鼠皮肤共享。其他序列与大鼠微生物组（12%）和人肠道微生物组（7%）共享（图5E），证明这些物种可能是寄主专一性较强的物种。

图5 实验室小鼠间共享MAGs的鉴别。（A）21名小鼠提供者样本中iMAGs的存在率(n=660)。如果iMAGs在提供者的一个样本中的相对丰度达到至少0.1%，则认为iMAGs存在于提供者中。左侧的数字表示具有指示存在率(Prev)的iMAGs的分数和分类分组（F，厚壁菌门；B，拟杆菌门；O，其他门）。在右图中，iMAGs按存在率排序，虚线分别表示>66%、>50%和>20%的提供者中存在的iMAGs数量。（B）比较至少三分之二的小鼠中存在的每种iMAG（n=22）的小鼠之间的最大丰度。对于每个MAG，列出了bin编号、基于手动绘制的系统发育树的最高分类分配和丰度最高的提供者。星号表示iMAGs与NCBI RefSeq中的匹配。数据显示为箱型图，代表10%、第一四分位数、中位数、第三四分位数和90%。（C）IMNGS数据库中与MAGs连接的16S rRNA基因序列相对丰度的比较。对于每个16S rRNA基因，测定最接近命名的相对16S rRNA基因序列，并与NCBI-16S rRNA基因数据库进行对比。点和名称的颜色表明它们与不同门（F，厚壁菌门；B，拟杆菌门；O，其他门）的分类关联。数据显示为箱型图，代表10%、第一四分位数、中位数、第三四分位数和90%。（D和E）IMNGS用于确定iMGMC 16S rRNA基因序列（n=1323）在不同宿主和生态系统中的存在率。其中，1113例在其中一个评价环境内达到至少1%存在率的存在率阈值（存在的0.1%样本深度截止）。进一步过滤所得序列（n=1113），在至少一种环境中具有至少1%的相对平均丰度。（D）热图显示了这些16S rRNA基因序列在生态系统（行标准化）内的平均相对丰度，其在至少一种环境中具有至少1%的相对平均丰度（n=739）。（E）Venn图可视化了在小鼠肠道、小鼠皮肤、大鼠肠道和人类肠道微生物组（n=569）中富集的子样本16S rRNA基因序列的分布（在图4D的生态系统中标准化的相对丰度>50%）。数字表示在指定的生态系统之间富集或共享的16S rRNA基因序列的部分。

为了评估菌群组成差异的潜在功能，根据iMAG的潜在功能对所有iMAG进行了无监督的聚类，结果显示出不同的丰度的iMAG，如Clostridiales-vadinBB60或Muribaculaceae科，代表小鼠微生物组内功能不同的细菌（图6A-6C）。在不同品系的小鼠中，MAGs的这些变化导致了微生物组的功能存在实质性差异（图6D；表S5）。总之，我们的分析揭示了在各品系小鼠中常见的微生物，但这些微生物在小鼠肠道微生物组中具有较高的种属水平和功能变异性。

图6 使用iMGMC分析小鼠肠道菌群细菌成员内和小鼠提供者之间的功能多样性。（A-C）基于KO，对iMGMC中包含的MAGs的功能概况进行排序分析。所有iMAGs（A，n=660）以及分类归属为拟杆菌目（B，n=94）和梭状芽孢杆菌目（C，n=482）的iMAGs比较。根据KO的存在，距离反映了MAGs功能能力的差异。根据手动绘制的系统发育MAG树，颜色代表不同的分类簇（见图4）。（D）为了表征每个提供者的微生物组的功能潜力，将单个文库（n=299）映射到iMGMC。映射的读段用于量化每个库中存在的KO。使用KEGG的“Reconstruct module”功能将这些信息转换为KEGG模块完整性评分，并根据提供者进行总结。每个KEGG模块的完整性用从深绿色（模块完成）到白色（模块缺失）的颜色代码表示。

讨论

基因目录、16S rRNA基因数据库和最近的MAG通常代表鸟枪法宏基因组和16S rRNA扩增子测序分析单独参考的数据库。为了克服这种分离，开发了一种资源，可用作（1）小鼠肠道菌群的参考和（2）表征较少的微生物生态系统的宏基因组目录。iMGMC和主要由新分类群（<95%ANI）组成的综合MAG集合的组合将允许科学家通过对含有细菌和非细菌基因的iMGMC或直接对MAGs作图来分析新一代测序（NGS）数据。iMAG-16S rRNA基因对能够开发出新系统优化版本的PICRUSt。我们预期这会广泛适用于根据16S rRNA扩增子测序数据预测基因组图谱。

对于整合基因目录的建立，使用了通过CAMI（宏基因组判读的关键评估）确定产生最佳结果的方法，例如处理大型数据集时进行MAGs或二进制组合，并用连接MAGs和16S rRNA序列的新方法进行补充。在iMGMC中手动管理MAG重建与连接MAGs和16S rRNA序列的新方法互补，该方法建立在基因组领域发展的基础上。使用合成数据集对连接管道的评估支持了此方法的优越性，未来将改进为应用于处理成千上万个样本的大规模研究，即人类微生物组。

在构建方面，与大规模的组学研究相比，采用了不同的组装策略。对于我们的数据集，一体化方法的质量与单样本方法相当，并且一体化方法所获得的数量以及应变异质性更高。与近期的观察结果一致，我们认为一体化方法对于包含来自连接生态系统的多个样本的研究是有希望的，例如个体的纵向采样或从同居动物采样，允许重建低丰度的MAGs。我们还通过处理来自猪微生物组的宏基因组测序数据，评估了另一个大型数据集的一体化组装方法的实用性。从用于构建先前参考基因目录的287份粪便样本(1758 Gbp)中，我们获得了1220万份ORFs和1050份MAGs，与原始工作相比分别增加了58%和45%。

然而，一体化方法的两个需要注意的问题是（1）不同菌株对MAGs的潜在失败率和（2）数千个样本的一体化方法的有限可扩展性。因此，我们为小鼠肠道微生物组提供了一组额外的去复制的mMAGs，对iMGMC进行严格基于基因组的分析进行补充，以及提供了近20000种可用于探索分析细菌菌株多样性的非去复制的mMAGs，分析程度与人类肠道微生物组相似。此外，这套单独的MAGs允许MAG集合的精简扩展与来自额外的小鼠品系的宏基因组测序数据和样本的组装，这很可能增加小鼠微生物组的多样性，因为每份样本的MAGs稀疏曲线表明会进一步提升（图S4）。

利用iMGMC资源，我们能够证明小鼠肠道微生物组主要含有在其他高通量测序研究中未培养或鉴定的细菌。例如，我们的资源允许鉴定在小鼠品系间广泛共享的细菌，或鉴定通过饮食干预在不同小鼠品系中同时改变的细菌网络。iMGMC的另一个用途是可获得连接的MAG-16S rRNA基因对，使大型16S rRNA基因数据库（如IMNGS数据库）纳入168573个短读数据集，从而允许对鉴定出的MAGs如肠道内的评估微生物组进行大规模筛选。最后，MAG-16S rRNA基因配对也使开发一种方案优化版本的PICRUSt成为可能，其产生的基因谱更接近WGS数据。我们预期这会广泛适用于根据16S rRNA扩增子测序数据预测基因组图谱。

总之，无聚类构建基因目录和通过互补途径构建大量MAGs以及16S rRNA基因序列与iMAGs的连接为基于测序的工作提供了高度整合的资源，并将使未来的研究能够探索分类学、功能、以及小鼠肠道和其他生物标志物的群落结构。引人注目的是，仅9%确定的MAGs与人类共享，证实了需要宿主特异性专用参考文献。

宿主相关微生物生态系统的复杂性需要宿主特定的参考目录来调查这些群落的功能和多样性。我们生成了一个综合资源，iMGMC包括460万个独特的基因和660个MAGs，许多（485个MAGs，73%）与重建的16S rRNA基因全长序列相关联。iMGMC能够对小鼠肠道菌群进行前所未有的覆盖和分类解析；即超过92%的MAGs在公共储存库中缺乏种属水平的代表（<95%ANI 匹配）。MAGs和16S rRNA基因数据的整合比单独基于16S rRNA扩增子的预测能更准确地预测群落的功能谱。伴随iMGMC，我们提供了一组代表通过互补组装策略获得的1296种肠道细菌的MAGs。本研究设想，综合资源，如iMGMC，连同MAG集合，将加强解决许多现有和未来基于测序的研究。

你可能还喜欢