分享

宏基因组分析专题(6):CheckM 对宏基因组分箱结果进行评估

 微生态 2021-12-01

本文由微科盟phage根据实践经验而整理,希望对大家有帮助。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号

写在前面


随着测序成本的大幅降低和计算方法的发展,越来越多的的单个物种的基因组从宏基因组序列分离和鉴定出来,在上一章中,通过MetaBAT从宏基因组数据中分离了若干个bins,但是对于这些bins的完整性和污染度还缺乏相应的评估,ChecM是一款使用广泛的标记基因评估基因组质量的自动化方法,CheckM提供了一套工具,用于评估从分离株,单细胞或宏基因组中回收的基因组的质量。利用系统发育中的Marker基因对基因组完整性和污染进行了强有力的估计。目前CheckM的版本为CheckM v1.1.3。

引用CheckM:Parks DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW. 2014. Assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes. Genome Research, 25: 1043-1055.

ChecM的官网、下载地址说明文档如下:

官方主页:https://ecogenomics./CheckM/

下载地址:https://github.com/Ecogenomics/CheckM

说明文档:https://github.com/Ecogenomics/CheckM/wiki。

注:本文配套的Binning数据可联系您所添加的微科盟组学老师免费领取,若从未添加过任一组学老师请联系微文下方的组学老师,请勿重复添加~

图1

安装和使用

一、使用数据:
使用在上一章得到的8条bins:

图2

如果前面的都没有运行出来可以联系组学老师免费获得binning数据。

二、CheckM的安装
CheckM的安装主要可以通过pip安装和conda安装。前面在宏基因组专题(2)中已经介绍了conda的相关安装和使用。pip的安装和使用教程如下:
通过pip –version 查看电脑是否安装了pip程序如果你还未安装,则可以使用以下方法来安装:
curl https://bootstrap./get-pip.py -o get-pip.py   # 下载安装脚本
sudo python get-pip.py    # 运行安装脚本
 
2.1 安装CheckM 
2.1.1 安装前准备
CheckM依赖以下几个软件,首先要保证下面几个软件达到相应的版本要求
HMMER (>=3.1b1)
prodigal (2.60 or >=2.6.1)
pplacer (>=1.1)
如果没有安装好这几个软件或者没有达到版本要求,可以使用以下命令进行安装相应软件
conda install HMMER
conda install prodigal
conda install pplcer
 
2.1.2 pip安装CheckM
CheckM >=1.1.0 是一个 Python 3.x 程序,可以使用python自带的pip安装工具进行安装
pip3 install numpy
pip3 install matplotlib
pip3 install pysam
pip3 install checkm-genome

2.1.3 conda 安装CheckM
conda install -c bioconda checkm-genome #使用bioconda的管道进行下载
 
三、数据库的下载
CheckM 依赖于marker基因的数据库文件,这些文件可以从https://data.ace./public/CheckM_databases/下载。将文件解压缩到适当的文件夹并运行以下命令以设置 CheckM 数据库文件
checkm data setRoot <checkm_data_dir> CheckM
CheckM 在2020年7月对数据库进行了一次补充,用于对CPR(candidate phyla radiation)基因组的质量评估。评估CPR的来源于2015年《Nature》杂志发表的Unusual biology across a group comprising more than 15% of domain Bacteria. Brown et al.识别了43个用于评估CPR基因组质量的Marker基因,大大增加了CRP基因组完整性评估的准确性。
 
四、CheckM的运行
checkm lineage_wf -t 2 -x fasta ./ output  
-x 输入文件的类型  这里是fasta文件格式
./ 是输入文件的当前文件
output为定义输出的文件路径
CheckM运行简化为一条命令:checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>
如果自行指定基因marker,使用HMMER提供的隐马尔科夫模型构建同源关系来进行分析。
checkm analyze <custom HMM file> <bin folder> <output folder>
checkm qa <custom HMM file> <output folder>
 
五、CheckM的运行结果
运行结束后生成的结果文件中包含bins的名称、基因组基因数目、marker基因数目、完整度、污染度等信息,如下所示:

图3

可以使用以下命令对结果进行可视化
checkm bin_qa_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_qa_plots

图4
其中,不同的颜色分别代表单拷贝、丢失、杂合与污染的marker基因,每一个bar代表一个marker,多拷贝基因之间氨基酸匹配(amino acid identity,AAI)大于90%被认为是杂合的,而AAI小于90%被认为是其他物种污染。

六、写在最后
使用CheckM评估完bins的完整性和污染度后,下一章节,我们将使用最新的Metaphlan3对宏基因组的物种组成进行分类。MetaPhlAn是一种物种注释工具,可从宏基因组鸟枪测序数据(即非16S)中分析微生物群落(细菌,古细菌和真核生物)的组成。尽情期待!

本文来源于微生态原创作者phage,仅用于学术分享,如有侵权,请联系删除!


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多