【原】宏基因组分析专题（4）：宏基因组拼接的高效工具：megahit的安装和使用

微生态 2021-07-29

展开全文

本文由微科盟phage根据实践经验而整理，希望对大家有帮助。

微科盟原创微文，欢迎转发转载，转载须注明来源《微生态》公众号。

在上一节“宏基因组分析专题（3）：宏基因组数据的质控-fastQC和Trimmomatic的安装和使用”内容中我们讲解了测序数据的质量评估和控制，二代测序虽然其通量高，但是其错误率也高（通常一条read的前后若干bp错误率较高），在进行fastq质量评估和Trimmomatic对错误碱基进行修剪后，我们需要把质控后的reads通过一些软件结合一些算法把这些比较短的reads拼接成一些长一点的Contigs才能进行下一步的分析。
下面来介绍一下宏基因组拼接的软件和流程。

写在前面

宏基因组拼接工具有哪些？

目前宏基因组拼接软件主要有4种：

（1）SOAPdenovo：这款软件由华大开发，SOAPdenovo2是用于short-read组装的软件，主要用于组装比较大的基因组，组装速度快但是错误率较高。

（2）SPAdes：metaSPAdes是目前宏基因组领域组装指标较好的软件，尤其在株水平组装优势明显，组装效果优，但是拼接时间长，资源消耗高

（3）IDBA：适合预测深度不均一的数据，且资源消耗过高

（4）Megahit：MEGAHIT是NGS de novo汇编程序，在土壤等复杂环境样本组装、大量样本混合组装方面优势明显，速度很快，消耗的资源少。

本文将重点介绍MEGAHIT的安装和使用。

安装和使用

第一：Megahit的介绍

MEGAHIT是NGS de novo汇编程序，用于以节省时间和成本的方式来汇编大型和复杂的宏基因组学数据。它分别在具有和不具有图形处理单元的单个计算节点上，在44.1和99.6 h内完成了252 Gbps的土壤宏基因组学数据集的组装。MEGAHIT将数据整体组装在一起，即不需要像分区和规范化这样的预处理。与以前的组装土壤数据的方法相比，MEGAHIT生成了三倍大的组装，具有更长的重叠群N50和平均重叠群长度；此外，有55.8％的读段与装配体对齐，从而提高了四倍。