分享

Nautre方法 | CheckM2基于机器学习快速、可扩展和准确地评估微生物基因组质量

 宏基因组 2023-08-13 发布于北京

CheckM2:基于机器学习快速、可扩展和准确地评估微生物基因组质量

Article, 2023-07-27

Nature Methods, [IF 48]

DOI: https:///10.1038/s41592-023-01940-w 

原文链接:https://www./articles/s41592-023-01940-w

第一作者:Alex Chklovski

通讯作者:Gene W.Tyson                                            

合作作者:Donovan H.Parks、Ben J.Woodcroft

主要单位:昆士兰科技大学生物医学科学学院微生物组研究中心,转化研究所(Centre for Microbiome Research, School of Biomedical Sciences, Queensland University of Technology,Translational Research Institute)

- 摘  要 -

DNA测序和生物信息学的进步大大提高了从宏基因组数据中回收微生物基因组的速度。评估宏基因组组装基因组(metagenome assembled genomes, MAG)的质量是下游分析之前的关键步骤。在这里,我们提出了CheckM2,这是一种使用机器学习预测宏基因组组装基因组的完整性和污染的改进方法。我们在合成和实验数据上证明了CheckM2的有效性,并表明它在预测宏基因组组装基因组质量方面优于原始版本的CheckM。CheckM2比CheckM快得多,其数据库可以用新的高质量参考基因组快速更新。我们发现CheckM2准确地预测了来自新谱系的宏基因组组装基因组的基因组质量,即使是那些在Patescibacteria和DPANN超门中发现的基因组代表性稀疏或基因组大小减小(例如共生体)的谱系。CheckM2为微生物生命树提供准确的基因组质量预测,在从宏基因组组装基因组推断新的生物学结论时增加了信心。

- 引  言 -

直接从环境样本中对基因组进行大规模测序和组装,已经从宏基因组数据中恢复了数十万个高度多样化的宏基因组组装基因组,使得手动评估这些基因组的质量是不切实际的。CheckM(以下简称CheckM1)使用的解决此问题的原始方法和其他类似工具(如BUSCO)是鉴定与特定谱系相关的单拷贝、近乎通用的标记基因,以预测基因组的完整性和污染。但是,这种方法有许多局限性。

CheckM1使用的单拷贝标记基因方法依赖于比较基因组学来识别谱系特异性标记基因集,根据它们的存在、缺失和拷贝数来预测恢复宏基因组组装基因组的完整性和污染率。具有许多高质量基因组的、经过充分研究的谱系通常具有更稳健(robust)的标记基因集,这使得基因组质量预测的准确性和可信度更高。对于缺乏高质量基因组表示的新谱系,只能使用最通用的标记集(例如域水平)进行基因组质量估计,导致准确性和灵敏度降低。此外,这种方法通常在来自基因组减少的微生物的宏基因组组装基因组上表现不佳,这些微生物缺乏一些“通用”标记基因,并且在许多情况下没有许多高质量的基因组代表来获得稳健的标记集。

解决这个问题的另一种方法是使用更复杂的数学技术,如机器学习(machine learning, ML),将更广泛的基因组输入联系起来,以预测基因组质量。机器学习算法可以生成对复杂数据的见解,并已用于重要的生物学难题(challenges),如应用机器学习在蛋白质折叠和宏基因组分箱估计基因组质量方面的应用具有许多优势,因为它允许结合额外的基因组信息,如多拷贝基因、生物通路(pathway)和模块,以及其他基因组特征,如氨基酸计数和编码序列的数量。此外,它允许自动选择相关基因组特征以用于基因组质量预测,而无需依赖预定义的谱系特异性标记集。

在这里,我们介绍了CheckM2,这是一种基于机器学习的工具,用于预测分离单菌(isolate),单细胞和宏基因组组装基因组质量。CheckM2构建的模型适用于预测细菌和古菌基因组的完整性和污染率,而无需明确考虑分类信息。CheckM2在具有已知完整性和污染水平的模拟基因组上进行训练,进行基准测试,随后应用于来自一系列不同环境的宏基因组组装基因组。总体而言,CheckM2优于CheckM1,并且在来自新谱系的宏基因组组装基因组上表现更好,例如候选门辐射(Patescibacteria)和DPANN超门,以及其他具有稀疏或没有基因组表征的谱系。

- 结  果 -

① CheckM2基因组模拟、训练和基准测试

为了证明机器学习可以用于准确预测基因组质量,构建了具有已知质量的合成宏基因组组装基因组用于机器学习训练。使用“随机蛋白质采样”方法来构建训练宏基因组组装基因组集,其中从NCBI RefSeq版本89中选择的4978个细菌和322个古菌的随机抽样子集预测蛋白质,它完全是基于分离培养的基因组,以预先确定的完整性和污染百分比构建约700,000个合成宏基因组组装基因组(图1a)。为了验证机器学习模型的性能,使用了两种独立的宏基因组组装基因组模拟方法:i)“20kb核苷酸片段化”方法,其中全长基因组被剪切成20 kb长的片段,以及ii)“宏基因组组装基因组衍生片段化”模型,其中全长基因组被剪切成与基因组分类数据库中代表性重叠群分布的样式(GTDB;图1b)。在用于验证的两个模拟模型中,对重叠群进行随机抽样,以构建具有一系列模拟完整性(5%-100%)和污染(0%-100%)值范围的宏基因组组装基因组。

图1.CheckM2的开发、基准测试和验证概述。

a,b,模拟合成基因组,使用随机蛋白质片段(random protein fragmentation, RPF)进行训练(a),并使用20kb片段和随机宏基因组组装基因组衍生片段(random MAG-derived fragmentation, RMF)进行测试(b)。c,选择人工神经网络和梯度增强模型,并进一步测试和改进。d, CheckM2最终算法选择梯度增强或人工神经网络模型。e, CheckM2在refseq202合成基因组上的评测。f, CheckM2在包括Patescibacteria在内的环形宏基因组组装基因组的新型和不寻常合成基因组上的基准测试。G, 对RefSeq r89基因组非自身污染合成基因组进行CheckM2基准测试。h,比较所有GTDB r202 宏基因组组装基因组的CheckM1和CheckM2基因组质量预测。

为了训练和测试不同的机器学习模型来预测基因组质量,合成宏基因组组装基因组的基因组特性被计算为机器学习模型的特征向量,包括基因组长度、编码序列的数量和单个氨基酸计数,以及使用KEGG对预测蛋白质的注释。总共有 11种机器学习方法(参见方法)在随机选择的模拟 宏基因组组装基因组 子集上进行了训练(占所有 宏基因组组装基因组 的 75%;“随机蛋白质采样”),随后在其余的宏基因组组装基因组上进行了验证(25%;对于“1kb核苷酸片段化”和“宏基因组组装基因组衍生片段化”),以初步评估不同门的质量预测性能。为了评估机器学习模型的性能,根据MI宏基因组组装基因组完整性和污染标准,将模拟基因组的预测分为四组:高质量:>90%完整,<5%污染;中等质量:50%-90%完成,<10%污染;低质量:<50%完整,<10%污染,以及单独的高污染组(>10%污染),详见附表1。

人工神经网络(neural networks, NN)和梯度提升决策树(gradient boosted, GB)具有最佳的整体性能,并用于进一步优化和测试(图1c,附图2)。当在其通路/模块的上下文中考虑KEGG注释时,人工神经网络和梯度提升决策树模型都表现出更高的准确性(参见方法)。此外,人工神经网络还包括用于特征提取的卷积层,从而提高了准确性。在随后的测试中使用了对两个模型的这些优化。

② 评估使用模拟基因组预测基因组质量

的机器学习模型

为了评估分类新颖性对优化的人工神经网络和梯度提升决策树模型准确性的影响,对合成基因组集使用了迭代留一方法(leave-one-out approach),其中特定的分类谱系从训练集中排除,然后每个模型测试其在该谱系上的表现。从门到物种水平系统地评估了两种模型用于预测完整性和污染率的平均误差(图1d)。

正如预期的那样,随着分类水平的增加,从训练集中删除谱系会成比例地影响基因组质量估计(即删除所有属级表示对准确预测基因组质量的影响要比删除查询基因组的类级或门级表示低得多)。如果训练集包含与查询基因组在分类学上更相关的基因组,则整体细菌和古细菌基因组质量估计会提高(图2a)。然而,这两种模型相对于基因组新颖性和基因组完整性具有不同的优势。使用梯度提升决策树模型,代表新门,类别和目的的查询基因组的完整性质量估计更准确,而人工神经网络模型对于代表新科,属和物种的基因组平均更准确(图2a)。此外,对于低质量(<50%完整)基因组,人工神经网络模型在所有分类水平上都更准确,而梯度提升决策树模型的准确性随着宏基因组组装基因组质量的降低而下降(图2a)。

图2.在不同分类新颖性的合成基因组上对标机器学习模型。

a、预测完整性的错误。b .不同分类水平的新颖性污染。每个分类新颖性水平在不同的MI宏基因组组装基因组质量截止点(高质量,90-100%完整性和0-5%污染)上被分解为单独的误差范围;中等质量,完整性50-90%,污染0-10%;低质量,完整性小于50%,污染0-10%)。正值表示高估,负值表示低估真实值。字母值图中每个错误框的大小显示了剩余数据的一半,从第一个框的50%开始,第二个框的25%,依此类推。

最困难的完整性预测方案可能是属于新门的基因组(即没有完整分离基因组的门)。对于来自新门的近乎完整的基因组,使用梯度提升决策树模型进行完整性预测的平均误差(MAE)为3.1±3.9%,人工神经网络模型的平均误差为5.2±5.7%。对于中等质量的基因组,梯度提升决策树模型的MAE为4.6±4.4%,而人工神经网络模型的MAE为5.9±5.3%。这些结果表明,即使基因组质量下降,这些模型也能够以相对较好的准确性推广到门水平的新颖性。虽然不可能在CheckM1上重现这种测试,但使用CheckM1的域级细菌或古菌标记集,由约120个通用标记基因组成,高质量基因组的MAE大致相同,分别为3.4±4.4%,中等质量基因组的MAE为7.2±5.8%。

对于所有分类水平的基因组污染预测,梯度增强模型的性能大大优于神经网络,并被选为预测污染的模型(图1d和2b)。对于属于新门的基因组,梯度提升决策树模型的预测污染MAE为2.0±2.2%(高质量),而人工神经网络模型的预测污染MAE为7.3±5.5%(高质量),CheckM1域水平标记集的预测污染MAE为1.9±2.2%(高质量)。

由于人工神经网络模型对较少新颖的基因组表现最好,而梯度提升决策树模型对更多新颖的基因组表现最好,因此这两个模型都在CheckM2的最终版本中实现了完整性预测。只有梯度提升决策树模型被用于预测污染。对于新的和更完整的基因组的完整性预测,CheckM2使用基于梯度增强决策树算法的“一般”模型,而对于与其参考集中更密切相关的基因组或不太完整的基因组,它使用基于人工神经网络的“特定”模型(图1d)。余弦相似度度量被发现与输入基因组的分类新颖性有很好的相关性,余弦相似度的平方与分类距离之间存在线性关系(补充图1),使CheckM2能够使用该度量在“一般”和“特定”模型之间进行选择,该模型基于从“留一”方法中派生的预定义余弦相似度阈值(方法,图1d和附表4)。

③ 使用模拟基因组对新的 RefSeq 基因组

进行 CheckM2 性能基准测试

最初的CheckM2 的机器学习模型建立在RefSeq Release 89的基因组上,允许使用来自RefSeq Release 202的新完整基因组来测试CheckM2的性能,因为它们不是原始训练和验证集的一部分(图1f)。根据GTDB分类,总共包括2,864个新的完整微生物分离基因组,代表6个新门,13个新类,43个新目,87个新科,439个新属和1554个新物种。由于这些基因组代表了大约在2年的时间里添加到公共数据库中的基因组的范围和类型,因此它们提供了 CheckM2 在针对不同分类学新颖性的新基因组进行测试时的表现的合理指示。它们还提供了合适的完整基因组,用于模拟已知完整性和污染的新基因组(如图1b所示),从而允许将CheckM2与CheckM1进行基准测试。

当预测 712,880 个模拟的基于 RefSeq 202 的基因组的完整性时,CheckM2 比 CheckM1 准确得多,所有基因组的平均误差更低(图 3a;补充说明2)。总体而言,CheckM2和CheckM1在高质量基因组上的表现相似(CheckM2 MAE:2.1±2.9%,CheckM1 MAE:2.0±3.2%),但CheckM2对于中等,低质量和高度污染的基因组要准确得多(图3a;CheckM2 MAE:3.1±3.3%,CheckM1 MAE:4.7±5.4%)。然而,由于RefSeq 202中的一些门被高度过度采样,基因组平均误差低估了广泛的分类学等级的性能。当使用门加权平均误差(PW-MAE)时,CheckM2优于CheckM1,对于高质量基因组(CheckM2 PW-MAE:2.5±1.4%,CheckM1 PW-MAE:5.7±8.2%)以及中低质量基因组(CheckM2 PW-MAE:3.9±1.1%,CheckM1 PW-MAE:7.1±4.8%,。CheckM2在“20 kb碎片”和“宏基因组组装基因组衍生随机碎片”模拟中表现出相当的性能,表明模拟方法对结果预测几乎没有影响(补充注释2)。与CheckM2(高质量MAE:3.±7.3)(图1b,1c)相比,CheckM2的性能最显着的提高是在预测门的基因组完整性方面,很少有高质量的基因组代表,如Iainarchaeota,Nanohaloarchaeota,Dependentiae,Bipolaricaulota和Patescibacteria(高质量MAE:3.10±7.3)(图3b,2c)。值得注意的是,在CheckM2的训练集中,只有Nanohaloarchaeota,Dependentiae,Bipolaricaulota和Iainarchaeota的单一参考基因组,表明谱系的单个基因组代表为准确预测基因组质量提供了足够的信息。

图3.RefSeq r202基因组分析工具比较。

a,预测细菌和古细菌基因组完整性的错误。b,预测特定细菌门完整性的错误。c, CheckM2与其他工具在预测特定古菌门的完整性方面存在较大差异。d,预测细菌和古细菌基因组污染的误差。结果在不同的MI宏基因组组装基因组质量截止点(高质量,90-100%完整性和0-5%污染)上被分解为单独的误差范围;中等质量,完整性50-90%,污染0-10%;低质量,完整性小于50%,污染0-10%,高污染,完整性大于10%)。正值表示高估,负值表示低估真实值。字母值图中每个错误框的大小显示了剩余数据的一半,从第一个框的50%开始,第二个框的25%,依此类推。

在预测污染时,CheckM2的平均误差(MAE:1.2±1.3)与高质量基因组的CheckM1(MAE:1.5±1.8)相当,对于中低质量基因组(CheckM2:1.7±1.7%,CheckM1:3.0±4.0%)要准确得多。它在预测高度污染的基因组中的污染方面也明显更好(图3d)

④ 在新谱系上对CheckM2性能进行基准测试

CheckM1的缺点之一是,相对于其标记集所基于的数据集,它在高度新颖的基因组上的表现不佳,特别是在以基因组较小或高度减少的生物体为特征的谱系中,例如来自DPANN和Patescibacteria的生物体。古细菌DPANN超门和细菌Patescibacteria是微生物的大量分枝,构成了生命之树的很大一部分。它们的高度多样性、不寻常的生物学特性、缺乏关键基因和通常较小的基因组使得预测它们的基因组质量特别具有挑战性。为了评估CheckM2预测这些微生物基因组质量的能力,从废水中获得了57个闭环基因组,其中包括30个来自Patescibacteria的基因组,以及来自Dependentiae、Iainarchaeota和UBA10199等门的其他高度新颖且通常较小的基因组。此外,从Lui等人那里获得了36个环状的Patescibacteria基因组。这些谱系在RefSeq版本202中没有得到很好的体现,它主要覆盖了现有分离代表的门和类。总之,这个数据集代表了25个独特的类和45个独特的序列,以及一些代表新门和新类的其他环形宏基因组组装基因组,为测试CheckM2在新基因组上的性能提供了一个很好的机会(图1f)。从这些完整的基因组中,如上所示创建了不同完整性和污染程度的模拟基因组(图1b),以便在不同水平的基因组质量中进行工具基准测试。

在所有类别的Patescibacteria中,CheckM2的准确性远远高于CheckM1,而CheckM1的性能仅通过使用基于43个核糖体基因的定制Patescibacteria标记集来提高(图4c)。然而,使用自定义候选门辐射(CPR)标记集的CheckM1在中低质量的Patescibacteria基因组上的准确性大幅下降,完整性错误率高达30-40%,使得该方法不可靠。CheckM2的优越性能扩展到Singleton等和Lui等所代表的所有Patescibacteria类别,这表明尽管训练集中只有少数基因组代表,但CheckM2可以稳健而准确地预测来自高度多样化谱系(如Patescibacteria)的基因组质量。

图4.新谱系上工具的比较。

a,预测细菌和古细菌基因组完整性的错误。b,在预测特定细菌和古细菌门的完整性时,CheckM2与其他工具之间存在实质性差异。c,预测所有类别的Patescibacteria的完整性的错误,包括CheckM1使用CPR标记集的预测。d, 预测细菌和古细菌基因组污染的误差。结果在不同的MI宏基因组组装基因组质量截止点被分解成单独的误差范围(高质量90-100%完整性和0-5%污染;中等质量:完整性50-90%,污染0-10%;低质量,完整性小于50%,污染0-10%,高污染,完整性大于10%)。正值表示高估,负值表示低估真实值。字母值图中每个错误框的大小显示了剩余数据的一半,从第一个框的50%开始,第二个框的25%,依此类推。

在其他不寻常的谱系中,CheckM2对高质量基因组(MAE 2.9±2.6%)和中低质量基因组(MAE 4.4±3.8%)的准确性都高于CheckM1(高质量MAE 4.7±6.0%;中低质量MAE 6.1±5.8%)或BUSCO(高质量MAE 10.9±9.0%;中低质量MAE 10.2±8.3%),显示出在其参考集中未表示的门和类的范围内进行良好概括的能力(图4a)。对于基因组减少的不寻常谱系,如Patescibacteria门、Dependentiae门或Iainarchaeota门,在这些谱系中无法获得CheckM1的内置特异性标记集合,CheckM2完整性预测(MAE 5.8±5.3%)远高于CheckM1 (MAE 19.8±10.6%)或BUSCO (MAE 30.3±13.2%);图4 b)。与RefSeq 202基准测试一样,CheckM2在两种测试模拟基因组上表现出相似的性能,并且始终优于CheckM1(补充说明3)。

在大多数污染情况下,CheckM2也优于其他工具(图4d)。唯一部分例外的是一些高质量的Patescibacteria基因组,其中CheckM1的谱系特异性标记集提供了稍好的准确性(Singleton等18:CheckM1 MAE 1.4±1.1%,CheckM2 MAE 1.7±1.3%;在某种程度上,这可能是由于CheckM2在接近污染预测时的保守性。然而,将这些新的环状Patescibacteria基因组添加到CheckM2的最终参考集(图1)可能会提高其准确性。

与RefSeq release 202基准测试一样,我们计算了所有工具模拟基因组和预测的预测与实际完整性和污染值之间的R2。如上所述,CheckM2在每个标准上都优于其他两种工具(附表11)。

⑤ 对CheckM2交叉污染性能进行基准测试

宏基因组组装基因组中的污染可能来自密切相关的菌株或物种的结合,但也可能包含来自其他谱系甚至域的不同序列。CheckM1使用重复的单拷贝标记基因计数来推断污染率,假设这些污染来自紧密相关的基因组,因此将包含重复的单拷贝基因。当污染源高度相关,从而可能共享相同的单拷贝标记分布时,这种方法可能效果更好。

然而,目前尚不清楚CheckM1在评估来自同一菌株或物种的不同来源的污染时的准确性,以及CheckM2的加权特征向量组合是否比仅使用重复的单拷贝标记基因更能识别外来污染。在这里,CheckM1、CheckM2和BUSCO的污染预测是在模拟基因组上进行基准测试的,这些基因组的污染来源越来越分散,从物种到结构域(图1g)。此外,GUNC也被作为污染预测的基准,因为它使用了一种基于分类学上不一致的重叠群存在的替代方法。

我们的结果表明,CheckM2在识别外来污染方面是准确的,特别是对于高质量的基因组(图5),尽管它对中等质量基因组的高分类群污染的准确性较低,CheckM1和BUSCO也是如此,它们大大低估了污染(图5)。与CheckM1相比,CheckM2高估污染的可能性要小得多。可能是因为它不强烈依赖于单拷贝标记基因,也不使用小的标记集(补充注4)。

图5.非自污染工具的比较。

污染预测的误差是通过污染物相对于污染基因组的分类来源来计算的。结果在不同的MI MAG质量截止点被分成单独的误差范围(高质量90-100%完整性和0-5%污染;中等质量,完整性50-90%,污染0-10%)。正值表示高估,负值表示低估真实值。每个框显示剩余数据的一半,第一个为50%,第二个为25%,依此类推。

CheckM2优于CheckM1和BUSCO绝对误差的均值预测的高质量和中等质量基因组,同物种来源的污染(CheckM2高质量E 1.7±1.6%,CheckM1 绝对误差2.6±3.1%,  BUSCO AE 2.4±3.1%)污染源自相同的门(CheckM2 绝对误差2.4±2.3%,CheckM1 AE 3.6±4.7%,BUSCO3.7±3.2%),不同的门(CheckM2 AE 2.6±2.4%,CheckM1 AE 4.3±6.2%,BUSCO 4.1±3.1%)或不同结构域(如细菌宏基因组组装基因组的古细菌污染)(CheckM2 AE 3.1±2.5%,CheckM1 AE 3.2±2.6%,BUSCO 4.3±2.9%)。当污染来自不同类别或分类学上更遥远的污染时,GUNC实际上更准确,但倾向于高估其他水平的污染,并大大低估了同一物种和同一属的污染(图5)。CheckM2在预测来自同一物种,属或科的污染方面比其他工具更准确,这比基于分类学的检测工具(如GUNC)更难检测。

⑥ CheckM2在环境宏基因组组装基因组中的应用

CheckM1与CheckM2在所有分类群中预测的比较

在对合成基因组进行基准测试后,在RefSeq release202中对CheckM2进行了所有完整基因组的重新训练,以提供一个全面的参考数据库,供CheckM2发布版本使用。然后,我们使用CheckM2来预测所有细菌和古细菌谱系的基因组质量。由于GUNC无法预测完整性,而CheckM1和CheckM2在上述基准测试中一直优于BUSCO,因此将CheckM2的预测与CheckM1对GTDB版本202(测试时可用的最新GTDB版本)中224,101个细菌和3,881个古细菌基因组的完整性和污染的预测进行比较,注释为“不完整”:即不是分离基因组或封闭的环形宏基因组组装基因组(图1h)。

总体而言,CheckM2和CheckM1之间的大多数门的完整性预测具有良好的一致性,73%的完整性预测彼此在1%以内,91%的完整性预测彼此在5%以内(图6a)。在污染的结果中观察到类似的一致性,82%的基因组预测在1%以内,99%在5%以内(图6b)。使用CheckM2进行更高或更低的完整性预测(超过5%的差异)通常发生在整个谱系(门到属)中,而污染的差异通常仅限于谱系内的特定基因组(即,不是系统性的;(图6,附表5和补充图2和3)。CheckM2还能够在许多宏基因组组装基因组和分离基因组中识别以前未检测到的污染,并可能避免CheckM1对一些潜在污染的高估(补充注释8)。

图6. CheckM1与CheckM2对GTDB进行预测。

a,从门到种的平均完整性预测。b,特定门基因组的完整性预测。c、所示类别中每个基因组的完整性预测。d,在所示顺序中对每个基因组的完整性预测。e,从门到种的平均污染预测。对于两者,圆圈的大小对应于每个分类群中基因组的数量。

在细菌中,完整性预测的最大差异是在Patescibacteria门内,其中CheckM2分数远远高于CheckM1预测的分数(图6c)。基于基准测试,CheckM2结果可能更加准确,从而在未来实现更好的Patescibacter 宏基因组组装基因组管理,并为从这些基因组中获得的生物学见解提供更大的信心。据预测,其他更完整的细菌谱系似乎都具有共同特征,如较小或减小的基因组,和假设的内共生或寄生生活方式。这包括依赖门,它在系统发育上与Patescibacteria有关,以及变形杆菌中的RF32目,Firmicutes_A中的TANB77,放线菌目和纳米放线菌目。有趣的是,虽然Firmicutes_A目Christensensenellales中的一些家族具有一致的CheckM1和CheckM2预测结果,但其他家族(如CAG-74)具有更高的CheckM2完整性值。CAG-74被假设缺乏某些关键功能(例如氨基酸生物合成途径),可能是潜在的共生体。UBA1242家族的成员,其平均基因组大小为1 Mbp,也显示出更高的CheckM2完整性预测(平均更完整11%),表明该家族也可能具有以前未报道的共生或寄生生活方式(图6c)。

据人工整理的完整细菌内共生基因组的分析(附表6)表明,通过CheckM2预测的完整性明显优于CheckM1, CheckM2预测的平均完整性为71%,而CheckM1的平均完整性为39%。值得注意的是,CheckM2能够在其训练数据库中几乎没有内共生体表示的情况下实现这种准确性(因为它们通常被排除在RefSeq之外),并且将测试基因组纳入最终模型可能会大大提高其对未来内共生体病例的准确性。在组装的宏基因组数据上使用CheckM2可能会发现新的内共生基因组,这些基因组高度完整,基因组大小较小

CheckM2完整性得分较高的古细菌谱系主要是DPANN超门,包括Nanoarchaeota、Nanohaloarchaeota和Microarchaeota门的成员,它们在CheckM2中具有高质量的基因组代表,以及Huberarchaeota、Aenimatarchaeota和PWEA01门(以前是Aenigmatarchaeota的一部分),它们在CheckM2发布参考集中没有代表(图6c)。这些预测强调了CheckM2预测方法的有效性,该方法可以推广到与CheckM2训练的基因组具有生物学相似性的新分类群。CheckM2预测的其他更完整的谱系包括Thermoplasmatota中的Poseidoniia_A类Asgardarchaaeota CR-4目,该类缺少CheckM1使用的几个单拷贝基因和。最近分离和测序的Prometheoarchaeum syntrophicum,属于CR-4目,被包括在CheckM2的参考集中,这可能是该谱系完整性得分较高的原因。这突出了在CheckM2的机器学习预测中包含单个基因组代表的性能提升。

在少数情况下,CheckM2的完整性值明显低于CheckM1(5.4%的基因组低于或等于5%,1.6%的基因组低于或等于10%)。造成这种差异的根本原因尚不清楚,但可能是由于多种因素,例如基因组的新颖性,CheckM2选择的机器学习模型或CheckM1使用界级别的标记集来评估一些不寻常谱系的完整性(补充说明5)。与CheckM1相比,indel主导的基因组的CheckM2得分也特别低(补充说明6)。此外,由于CheckM1经常用于选择提交和发表的宏基因组组装基因组,这会产生一种不平衡的选择效应,在这种情况下,具有高估误差的基因组比具有低估误差的基因组以更高的比率保留在数据库中(补充注释7)。考虑到基准测试结果和对示例案例的仔细调查,在大多数情况下,CheckM2可能比CheckM1更准确。然而,对于一些只有少数宏基因组组装基因组且没有完整基因组的谱系,很难评估CheckM1或CheckM2评分是否更准确。任何单个完整的代表性基因组的添加都将提高和验证CheckM2对这些谱系预测的准确性。

最后,一些分箱算法可能产生一些重叠群(例如那些包含单拷贝标记基因的组合)比其他(例如重复序列或质粒基因)更优先恢复宏基因组组装基因组的组合。我们使用一个预定义的CAMI2数据集调查了分箱算法对基因组预测精度的影响,结果表明,任何偏差都可能是轻微的,并且在各种分箱算法得出的宏基因组组装基因组上,总体上CheckM2比CheckM1或BUSCO更准确(补充说明10)。

总的来说,我们看到CheckM2和CheckM1之间具有良好的一致性,并且在已知的CheckM1具有较差预测能力的谱系中增加了CheckM2的完整性得分。考虑到两种工具背后不同的底层算法,这使人们对两种估计的鲁棒性(robustness)和可靠性有了信心。基于这些结果,基准数据集和个案调查(补充说明3-8),我们认为在大多数不一致预测的情况下,CheckM2值可能更准确

对机器学习模型的生物学见解

很难确定特定基因组特征对CheckM2使用的机器学习模型预测的贡献。一些可解释的机器学习方法,如SHAP,使用稳健的数学技术来近似特征的重要性。虽然不完美,但当应用于CheckM2模型时,这些方法可以突出特定基因和途径的重要性,这些基因和通路可以进一步独立研究和评估。

根据它们的SHAP值,大多数谱系中有助于完整性预测的关键途径是核糖体蛋白,以及DNA加工和tRNA生物合成通路中的基因。也有个别通路,只有在某些谱系中具有更高的预测值。例如,与大多数其他不以基因组减少或流线型为特征的谱系相比,Patescibacteria中的膜转运蛋白通路具有更高的重要性(附表7)。特别值得注意的是转运蛋白,因为它们可能是营养不良生活方式的关键,同时也提供了仅使用保守的单拷贝标记方法会遗漏的一组基因的例子。高度重视这些通路符合我们对微生物的生物学理解,并使机器学习模型有信心捕捉潜在生物现实的细节。所有门的平均SHAP值贡献也表明基因组特征具有很高的预测能力,通过一般梯度增强模型预测完整性的前500个特征中有8个基因组特征(附表12),最高的是基因组中氨基酸的数量(在21,241个输入特征向量中排名第76位)和基因组中编码序列的数量(排名第143位)。

CheckM2更新、计算基准测试和资源

CheckM2将根据基因组分类数据库(Genome Taxonomy Database, GTDB)版本进行更新。与CheckM1的计算量非常大的模拟方法(参考文献4)不同,新的完整基因组的模拟和训练每个基因组(每个线程)花费不到1分钟,使用DIAMOND对模拟基因组进行京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)注释形成了唯一的计算瓶颈。这意味着新的GTDB版本可以在24-48小时内更新到CheckM2。

在运行时,CheckM2始终比CheckM1快,在AMD EPYC 7702 64核处理器上,CheckM1每线程平均处理1.56±0.83个基因组,而CheckM1每线程平均处理0.57±0.19个基因组。由于CheckM2没有分类确定步骤,其速度比CheckM1变化更大,在预测小基因组或低完整性基因组的质量时要快得多。CheckM2能够一次处理数十万个基因组,并且具有合理的随机存取存储器(random access memory, RAM)使用(批量运行224,000个基因组时小于90GB)。

CheckM2的未来版本将迭代更新,并且这将导致基因组质量预测的显著改进,还可能包括额外的注释数据库(例如STRING和EggNOG)。我们还可以探索KEGG通路之外的单个基因的替代分组,例如由DRAM或其未来版本提供的那些。最后,我们正在探索UniRef数据库的替代方案,例如用最新的KEGG Orthology隐马尔可夫模型注释的GTDB蛋白质的去冗余数据库。

- 讨  论 -

在这里,我们提出了CheckM2,一种机器学习方法,用于预测来自宏基因组,单细胞和分离序列数据的微生物基因组的完整性和污染率。当与CheckM1进行基准测试时,我们发现具有良好基因组代表性的谱系的基因组质量预测具有一致性,证明CheckM2在中低质量基因组和来自基因组代表性较差的谱系的基因组上具有更好的准确性。我们还证明,在大多数情况下,它可以产生高度准确的预测基因组在门只有一个单一的基因组代表。此外,CheckM2在具有较小或减少的基因组的谱系(如DPANN, Patescibacteria和Dependentiae)上更加准确在这些谱系中CheckM1经常产生非常不准确的预测。最后,在参考数据库中没有基因组表示的谱系上,CheckM2的性能通常优于或等于CheckM1。

CheckM2基因组质量预测的使用可能对现有数据库和新谱系或不寻常谱系的生物学解释具有重要意义。例如,CheckM2完整性预测将允许包括目前由于不准确的基于CheckM1的最小阈值(50%完整性)而被排除在GTDB之外的其他基因组,如Patescibacteria门和DPANN所示。

CheckM2改进的基因组质量预测是在其机器学习模型中考虑各种各样的注释基因的结果,而不是CheckM1要求每个谱系中都有单拷贝标记基因集。CheckM2方法的另一个优点是,它的模型可以轻松快速地更新,以纳入新的谱系的额外高质量基因组代表,进一步提高其基因组质量预测的准确性。此外,可以通过更复杂的训练数据模拟来改进来自不同分类源的污染检测。CheckM2是我们快速准确地预测细菌和古细菌基因组质量的重要一步。

参考文献

Alex Chklovski, Donovan H. Parks, Ben J. Woodcroft, Gene W. Tyson. 2023. CheckM2: a rapid, scalable and accurate tool for assessing microbial genome quality using machine learning. Nature Methods 20: 1203-1212. https:///10.1038/s41592-023-01940-w

第一作者简介 -

昆士兰科技大学

Alex Chklovski

博士研究生

Alex Chklovski,昆士兰科技大学微生物组研究中心博士研究生,目前以第一作者发表了一篇Nature Methods。

信息来源:https://research./cmr/team/

通讯作者简介 -

昆士兰科技大学

Gene W. Tyson

教授

Gene W. Tyson,国际公认的微生物生态学家和生物信息学家。在过去的十年中,他一直处于开发和应用独立于培养的分子方法的最前沿,这些方法可以直接获取微生物“暗物质”。他的研究发表在顶级期刊上,包括七篇发表在《自然》上的论文,五篇发表在《科学》上的论文,三篇发表在PNAS和主要专业期刊上的论文。迄今为止,他的论文已被引用超过23500次,综合h指数为67。

信息来源:https://research./cmr/team/gene-tyson/

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多