简介基因组分类数据库:GENOME TAXONOMY DATABASE 网址:https://gtdb./
该数据库已经于2018/2020连续发表两篇Nature Biotechnology,软件于2019发表于Bioinformatcs,即可为细菌分类提供参考数据库,同时提供了物种分类、进化树构建的全套工具,绝对是服务到家的好工具。
该数据库发布2年,引用700余次,瞬间成为细菌分类领域最权威的数据库和软件之一。 热心肠日报简介(NBT2018)原文链接:https://www./papers/read/1087194889 Nature子刊:依据细菌共有单拷贝蛋白构建新的生命之树 创作:花开 审核:高春辉 2018年10月01日 这一分类系统以细菌中普遍存在的120个单拷贝蛋白质(bac120)为基础; 在对多分组类别消歧后,根据相对演化散度标准化和分级,得到基因组分类数据库(GTDB); 涵盖了94759个细菌基因组,在属、种分辨率水平上描述了99个门,其中不可培养细菌占14.4%; 58%在NCBI分类系统中已收录基因组的分类地位有变动,例如新系统中变形菌门重新划为6个不重叠的新类群; 一些难以确定分类地位的物种(如不可培养微生物)也被系统的整合了进来。 推荐语:16S rRNA基因是现代细菌分类系统的基石,但以单基因核酸差异构建的细菌生命之树并非尽善尽美。Nature Biotechnology报道的将单基因分类系统扩展到120个细菌共有单拷贝蛋白质,在大量氨基酸水平差异的基础上构建新的分类系统(命名为GTDB),大幅修正了现有的细菌生命之树。 GTDB与NCBI分类系统比较较多微生物的分类地位发生变化,如梭菌目重新划分为多个新目;而很多纲重新归类为拟杆菌纲(NBT 2018图5)。 GTDB分类法中指定为梭菌或拟杆菌的基因组的NCBI和GTDB分类的比较。 (a)比较GTDB分类法中分配给梭菌门的2368个细菌基因组的NCBI(左)和GTDB(右)目级别分类。原本的一个目重新划分为多个目。括号中表示通过NCBI归类为梭菌纲以外的纲的基因组。(b)比较GTDB分类法中分配给拟杆菌纲的2,058个细菌基因组的NCBI和GTDB纲级别分类。括号中表示通过NCBI分类为除拟杆菌纲以外的门的基因组。 软件和数据库安装Github: https://github.com/Ecogenomics/GTDBTk GTDB-Tk是一个软件工具包,用于根据基因组数据库分类法GTDB为细菌和古细菌基因组分配客观的分类法。它旨在与最近的进展一起使用,从而可以直接对环境样本中获得数百或数千个由基因组组装的基因组(MAG)进行物种分类注释。它也可以用于分离和单细胞的基因组物种注释。 本次测试版本为 GTDB-Tk v1.3.0,于2020年7月17发布,参考数据为95版。 硬件要求:
Conda安装: conda create -n gtdbtk download-db.sh自动下载数据库,将下载至conda中的envs/gtdbtk/share/gtdbtk-1.3.0/db/: download-db.sh (可选)手动下载和配置GTDB参考基因组最新版(测试时为95版,34Gb) mkdir -p ~/db/gtdb & cd ~/db/gtdb 此外:GTDB数据库国内下载备份链接见 http:///datadownload 使用教程:https://ecogenomics./GTDBTk/ 运行 工作流程:
主要方法模块:
工具:
测试:
测试流程test检查数据库,结果显示OK和Done表示正常 gtdbtk check_install 正常显示如下: GTDB-Tk v1.3.0 测试流程,无报错确定程序的软件和数据库正常 gtdbtk test --out_dir gtdbtk_test 运行成功显示如下内容: GTDB-Tk v1.3.0 结果目录(gtdbtk_test/output)中主要结果文件: ar122为古菌相关文件,bac120为细菌相关文件。此示例为3个古菌,细菌文件为空。
分类结果示例 user_genome classification fastani_reference fastani_reference_radius fastani_taxonomy fastani_ani fa 多序列对齐示例 >genome_1 物种注释流程classify_wf全称为 Classify workflow,即分类工作流程,主要包括了identify鉴定单拷贝标记基因、align多序列对齐和classify物种分类鉴定三步。 https://github.com/YongxinLiu/Note/tree/master/Meta/dRep/bin 中有6个基因组草图的fasta压缩文件。下载测试此流程。 (可选)解压数据,此流程支持gz压缩格式直接作为输放 # gunzip bin/*.fa.gz classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见 gtdbtk classify_wf --genome_dir bin \ 主要结果文件描述:此处全为细菌基因组,因此均为bin.bac120开头的结果 物种注释 bin.bac120.summary.tsv user_genome classification fastani_reference fastani_reference_radius fastani_taxonomy fastani_ani 多序列对齐结果建树infer# 6个基因组的120个单拷贝基因建树,1秒 结果可用itol(https://itol./)在线可视化
如果基因组比较多,而且添加上分类、来源注释,结果如下:
人类肠道基因组集基因组进化树(Almeida, 2020, Nature Biotechnology)。 具体的画法可以参照itol网站的帮助。也可以使用我们介绍过的脚本输入快速制作注释文件。 进化树构建流程从基因组直接建树,de_novo_wf:构建新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰。 输入文件为细菌基因组的目录(—genome_dir),指定扩展名类型(—extension),以及输出目录(—out_dir)。必须参数有需要选择细菌(—bacteria)/古菌,指定外类群(—outgroup_taxon)。可选常用参数有结果前缀(—prefix)和使用线程数(—cpus)。 # 约4小时。 主要结果有:
附录:GTDB数据库简介基因组位于 https://data.ace./public/gtdb/data/releases/ 中相应版本的genomic_files_reps目录下, 建议大家直接下载latest目录下的最新版,可以保持下载位置一致,同时记录版本号(当前为2020年7月13号更新95版)。 GTDB-tk使用的数据库,位于auxillary_files文件夹中的gtdbtk_data.tar.gz,95版为33G wget -c https://data.ace./public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz 物种注释文件,古菌3千多种,细菌,19万多种 wget -c https://data.ace./public/gtdb/data/releases/latest/ar122_taxonomy_r95.tsv 参考基因组文件,32G wget -c https://data.ace./public/gtdb/data/releases/latest/genomic_files_reps/gtdb_genomes_reps.tar.gz 参考文献软件:Pierre-Alain Chaumeil, Aaron J Mussig, Philip Hugenholtz & Donovan H Parks. (2019). GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics 36, 1925-1927, doi: https:///10.1093/bioinformatics/btz848 120个基因单拷贝分类法;Donovan H. Parks, Maria Chuvochina, David W. Waite, Christian Rinke, Adam Skarshewski, Pierre-Alain Chaumeil & Philip Hugenholtz. (2018). A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nature Biotechnology 36, 996, doi: https:///10.1038/nbt.4229 种特异的方法和数据库 Donovan H. Parks, Maria Chuvochina, Pierre-Alain Chaumeil, Christian Rinke, Aaron J. Mussig & Philip Hugenholtz. (2020). A complete domain-to-species taxonomy for Bacteria and Archaea. Nature Biotechnology 38, 1079-1086, doi: https:///10.1038/s41587-020-0501-8 使用实战:Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S. Pollard, Ekaterina Sakharova, Donovan H. Parks, Philip Hugenholtz, Nicola Segata, Nikos C. Kyrpides & Robert D. Finn. (2020). A unified catalog of 204,938 reference genomes from the human gut microbiome. Nature Biotechnology, doi: https:///10.1038/s41587-020-0603-3 调用的软件引文如下: 基因预测软件Prodigal:Doug Hyatt, Gwo-Liang Chen, Philip F. LoCascio, Miriam L. Land, Frank W. Larimer & Loren J. Hauser. (2010). Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119, doi: https:///10.1186/1471-2105-11-119 参考树插值法建树pplacer:Frederick A. Matsen, Robin B. Kodner & E. Virginia Armbrust. (2010). pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics 11, 538, doi: https:///10.1186/1471-2105-11-538 快速建树软件FastTree:Morgan N. Price, Paramvir S. Dehal & Adam P. Arkin. (2010). FastTree 2 – approximately maximum-likelihood trees for large alignments. PloS One 5, e9490, doi: https:///10.1371/journal.pone.0009490 基因组距离估计Mash:Brian D. Ondov, Todd J. Treangen, Páll Melsted, Adam B. Mallonee, Nicholas H. Bergman, Sergey Koren & Adam M. Phillippy. (2016). Mash: fast genome and metagenome distance estimation using MinHash. Genome Biology 17, 132, doi: https:///10.1186/s13059-016-0997-x 高通量ANI计算:Chirag Jain, Luis M. Rodriguez-R, Adam M. Phillippy, Konstantinos T. Konstantinidis & Srinivas Aluru. (2018). High throughput ANI analysis of 90K prokaryotic genomes reveals clear species boundaries. Nature Communications 9, 5114, doi: https:///10.1038/s41467-018-07641-9 |
|