分享

技术贴 | 宏基因组专题 | 宏基因组分箱(Binning)技术

 微生态 2021-04-13

本文由阿童木根据实践经验而整理,希望对大家有帮助。

原创微文,欢迎转发转载。

导读

宏基因组分箱(Binning)是将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程,类似下图(图0)。传统的单物种全基因组序列都是经纯培养之后,再进行全基因组de novo测序才获得的,但是环境中存在着大量的不可培养微生物,宏基因组分箱技术有助于获得不可培养微生物的全基因组序列,获得新物种的基因组序列和功能,预测未知物种的培养方法等等。


【图0

一、分箱工具盘点

早在2011年,science上的一篇文章就用了宏基因组Binning技术对来自牛瘤胃的样本进行了宏基因组测序研究。该研究从268 Gbp的宏基因数据中成功Binning出了15个不能培养的微生物的全基因组序列(可见分箱对数据量要求很大)。从那以后,宏基因组Binning技术开始被更多的人关注和重视,也逐渐出现了很多宏基因组Binning工具。查了一些文献和资料,我罗列了一下近几年的分箱工具,引用量仅供参考(google学术,2019.8.29)。

【表1

二、分箱工具比较

2017Nature Methods一篇文章对宏基因组数据处理各个过程中的软件进行评估[ Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software ]。从文章的分析结果来看,不同的方法各有优缺(下图)MaxBin2可能是相对较好的一个分箱软件

比较结果:

【图1

加利福利亚大学在通过整合多个算法设计出了新的Binning软件DAS tool并在2018年发表在Nature Microbiology [ Recovery of genomes from metagenomes via a dereplication, aggregation and scoring strategy ]。集合了多个算法的DAS tool各项Binning指数要明显优于CONCOCTMaxBin 2MetaBAT等方法,比较分析结果如下:

比较结果:

模拟微生物群落进行基因组重建分析

【图2

对不同样本来源的宏基因组数据进行分箱完成度分析

【图3

同年,Microbiome上发表了另一个整合了多个工具的分箱分析流程MetaWRAP [MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis. Microbiome]

MetaWRAP流程不仅纳入了最流行的MetaBATCONCOCTMaxBin2分箱方法,还整合了质控、拼接、分箱、提炼、评估、注释等多种功能。MetaWRAP可以解决分箱分析中可能遇到的绝大多数问题,而且比较分析发现综合多个工具的MetaWRAP分箱法不仅比单个工具分箱效果好,也比同样是综合多个算法的DAS tool分箱法效果好,比较分析结果如下:

比较结果:

完成度和污染度的比较(CAMI数据集)

【图4

完成度和污染度的比较(水、肠道、土壤数据)

【图5

metaWRAP重组装分箱效果更佳

【图6

三、分箱实战

MetaWRAP集合的算法和工具很全很多,但是也很慢,有条件的话可以自己尝试使用MetaWRAP。考虑到时间,下面只以MetaBAT2为例简介分箱工作流程。

1. 准备

下面是需要的软件和数据:

1) MetaBAT2地址

https:///berkeleylab/metabat/src/master/  

##  分箱工具

2) CheckM地址

https://github.com/Ecogenomics/CheckM/wiki  

##  分箱质检

3) 数据地址

https://portal./dna/RD/Metagenome_RD/MetaBAT/Software/Mockup/

##  MetaBAT2测试数据

【图7

##  下载得到已经组装好的contigs文件assembly.fa和两个样本的bam文件。

2. 统计contig深度

jgi_summarize_bam_contig_depths --outputDepth depth_var.txt *.bam

【图8

第一列:contigName

第二列:contigLen

第三列:totalAvgDepth

第四列:library1.sorted.bam

第五列:library1.sorted.bam-var

第六列:library2.sorted.bam

第七列:library2.sorted.bam-var

3. 分箱 (4线程,21)

time metabat2 -t 4 -i assembly.fa -a depth_var.txt -o metabat2/bin –v

【图9

4. 分箱评估 (4线程,32分钟)

time checkm lineage_wf -f metabat2/checkm.txt -t 4 -x fa metabat2/ metabat2/checkm/

##  评估结果保存在checkm.txt文件中。

grep 'bin' checkm.txt | sed 's/^  //' | awk '{print $1,$2,$13,$14}' | sed 's/\ /\t/g'| sed 's/\./\t/' | sort -n -k 2 | sed 's/\t/./' > test.txt

##  checkm.txt提取IDTaxonomyCompletenessContamination信息。

【图10

第一列:Bin Id

第二列:Marker lineage

第三列:Completeness

第四列:Contamination

到此就完成了两个样本的宏基因组分箱和分箱评估工作。这只是宏基因组分箱的简介,更全更详细的分箱分析可以参考MetaWRAP分析流程。

地址:https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md 

参考:

1) https://mp.weixin.qq.com/s/BHCs2Y97jXL-2kInlu49UA

2) https://blog.csdn.net/woodcorpse/article/details/83040987 

3) http://blog.sina.com.cn/s/blog_9f23b9710102wu5t.html

感谢阅读~




    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多