宏基因组样本的do novo组装是研究微生物群落的常用方法。与单个物种的组装相比,宏基因组组装存在PacBio HiFi 数据中读取长度分布的较大差异,以及某些单倍型的高倍性和低覆盖率等难点挑战。本文针对这些难点问题,对hifiasm-meta进行了几项重大更改以应对这些挑战。
作者首先在两个模拟菌群ATCC和zymo中评估了hifiasm-meta软件组装效果(表 1)。ATCC由20个不同的物种组成,通过组装对14个高丰富的物种重建为完成图contigs,比metaFlye和Hicanu软件效果更好,未组装到的菌发现其组装gaps都是由于覆盖率不足造成的。 zymo数据集包含17个物种的21个菌株,包括5个大肠杆菌,每个菌株丰度为8%。hifiasm-meta软件都获得了很好的组装效果(表1)。 作者接着测试了三个样本HiFi 宏基因组hifiasm-meta组装,使用CheckM检测完整性和污染度。从sheepA肠道样本中,hifiasm-meta 重建了328个长度>1Mb的contigs(图2a),总长度为656Mb。根据CheckM检测,有173个接近完成图(图2b),其中有125个是环状contigs(图2b),相比于HiCanu(64个)和metaFlye(31个)软件有显著改善。这表明 hifiasm-meta能够完全重建宏样本中更多的物种或菌株。 最后,作者比较了软件的性能,hifiasm-meta组装sheepA和鸡数据集需要48个CPU大约18个小时,而人类肠道样本花费了大约3个小时,与metaFlye速度相当,并且始终比HiCanu软件快好几倍。 综上,hifiasm-meta软件将进一步推动宏基因组组装。hifiasm-meta能够在无需人工干预的情况下,从一个深度测序的样本中组装出更多的环状MAGs。这种高质量的宏基因组组装可能会从根本上改变宏基因组分析,并揭示微生物群落的生物学和生物医学意义。 |
|