【原】生信工具 | 宏基因组测序数据的基因组组装方法基准测试

尐尐呅 2023-10-09 发布于湖北

展开全文

宏基因组组装的目的是从宏基因组测序数据中重建微生物基因组。这种方法从根本上推进了对宿主相关微生物群落和自由生活微生物的研究。2023年3月，《Briefings in Bioinformatics》发表了一项研究结果，使用模拟、模拟群落和人类肠道微生物组的宏基因组测序数据集，对19种宏基因组组装工具进行了基准测试。

该基准测试涉及比较基本的contig统计信息，包括总组装长度（AL），基因组分数（GF），contig N50，NA50，归一化NGA50，错配和错误组装。我们还评估了在contig binning 后宏基因组组装基因组(MAG)的连续性（MAG N50）、质量（#MQ：中等质量MAG的数量；#HQ：高质量MAG的数量；#NC：近完整MAG的数量）和微生物的注释（可以从MAG中注释的微生物数量）。

19种宏基因组组装工具的基准测试数据和工作流程

基准测试表明：长读长组装工具生成了高contig N50，但未能揭示一些中等和高质量的MAGs。linked-read组装工具从人类肠道微生物组中获得了最多的近完整MAGs。使用短读长和长读长测序的混合组装工具是改善总组装长度和近完整MAGs数量的有希望的方法。

短读长、linked-read和长读长组装工具的contig统计信息

从真实数据集生成的中等质量、高质量和接近完整MAG的数量以及MAG N50值

从真实数据集生成的MAG注释

混合组装工具的contig统计信息

用不同测序技术从人类肠道微生物组产生的组装序列的MAG注释

小结：

1）短读长组装工具生成的contig连续性和#NC最低。

2）在高深度测序数据集（>100X）上，MEGAHIT优于IDBA-UD和metaSPAdes；在低复杂度数据集（深度<100X）上metaSPAdes的结果优于MEGAHIT和IDBA-UD。

3）linked-read组装工具的contig N50显著高于短读长组装工具。

4）Athena在来自人类肠道微生物组的数据集中表现出比cloudSPAdes更高的contig N50，并且在所有组装器中生成了最高的#NC。

5）长读长组装工具表现出较高的contig N50，但生成的#MQ和#HQ较短读长和linked-read组装工具要小。

6）MetaFlye、Canu和Lathe比其他长读长组装工具表现更好。MetaFlye在ONT和PacBio CLR数据集上生成了最高的GFs和ALs。Lathe在ONT数据集上比metaFlye和Canu生成了更高的#NC。

7）混合组装比短读长和长读长组装具有更高（或至少相似）的GFs和ALs，并且生成的#HQ和#NC比长读长组装工具更高。

8）Unicycler和MaSuRCA生成的GF和AL较其他混合组装器较低，但实现了最高的contig连续性。Unicycler或OPERA-MS在Illumina和PacBio CLR测序的真实数据集上生成了最高的#NC。MaSuRCA在Illumina和ONT测序的真实数据集上获得了比其他混合组装工具更多的#NC。

组装工具在分析CAMI数据集时消耗的计算资源

小结：

1）与MEGAHIT相比，MetaSPAdes和IDBA-UD的运行时间更长，内存使用率显著更高。

2）linked-read组装工具中，cloudSPAdes的运行时间明显比Athena长，消耗的峰值内存也比Athena高。Canu在每个CAMI数据集上完成宏基因组组装需要7天以上的时间，这是其他长读长组装工具所需时间的两倍多。

3）混合组装工具中，Unicycler的速度平均比其他工具慢32.37倍，而metaFlye-subassemblies的速度平均比其他工具快29.74倍，Unicycler所需的内存比所有其他混合组装器都要多。

👉 此项研究的源代码可在如下链接获取：https://github.com/ericcombiolab/Benchmark-metagenome-assemblers.

建议对技术细节感兴趣的小伙伴请参考文献原文~

对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出，互相交流学习！

多优质内容请点击下方名片，关注“国家基因库大数据平台”和“深圳国家基因库”公众号。

参考文献

Zhenmiao Zhang and others, Benchmarking genome assembly methods on metagenomic sequencing data, Briefings in Bioinformatics, Volume 24, Issue 2, March 2023, bbad087, https:///10.1093/bib/bbad087