【原】技术贴 | 宏基因组专题 | 宏基因组分箱(Binning)技术

微生态 2021-04-13

展开全文

本文由阿童木根据实践经验而整理，希望对大家有帮助。

原创微文，欢迎转发转载。

导读

宏基因组分箱（Binning）是将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程，类似下图（图0）。传统的单物种全基因组序列都是经纯培养之后，再进行全基因组de novo测序才获得的，但是环境中存在着大量的不可培养微生物，宏基因组分箱技术有助于获得不可培养微生物的全基因组序列，获得新物种的基因组序列和功能，预测未知物种的培养方法等等。

【图0】

一、分箱工具盘点

早在2011年，science上的一篇文章就用了宏基因组Binning技术对来自牛瘤胃的样本进行了宏基因组测序研究。该研究从268 Gbp的宏基因数据中成功Binning出了15个不能培养的微生物的全基因组序列（可见分箱对数据量要求很大）。从那以后，宏基因组Binning技术开始被更多的人关注和重视，也逐渐出现了很多宏基因组Binning工具。查了一些文献和资料，我罗列了一下近几年的分箱工具，引用量仅供参考（google学术，2019.8.29）。

【表1】

二、分箱工具比较

2017年Nature Methods上一篇文章对宏基因组数据处理各个过程中的软件进行了评估[ Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software ]。从文章的分析结果来看，不同的方法各有优缺（下图），MaxBin2可能是相对较好的一个分箱软件。

比较结果：

【图1】

加利福利亚大学在通过整合多个算法设计出了新的Binning软件DAS tool并在2018年发表在Nature Microbiology上 [ Recovery of genomes from metagenomes via a dereplication, aggregation and scoring strategy ]。集合了多个算法的DAS tool各项Binning指数要明显优于CONCOCT，MaxBin 2，MetaBAT等方法，比较分析结果如下：

比较结果：

对模拟微生物群落进行基因组重建分析

【图2】

对不同样本来源的宏基因组数据进行分箱完成度分析

【图3】

同年，Microbiome上发表了另一个整合了多个工具的分箱分析流程MetaWRAP [MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis. Microbiome]。

MetaWRAP流程不仅纳入了最流行的MetaBAT、CONCOCT和MaxBin2分箱方法，还整合了质控、拼接、分箱、提炼、评估、注释等多种功能。MetaWRAP可以解决分箱分析中可能遇到的绝大多数问题，而且比较分析发现综合多个工具的MetaWRAP分箱法不仅比单个工具分箱效果好，也比同样是综合多个算法的DAS tool分箱法效果好，比较分析结果如下：