训练特征分类器Training feature classifiers with q2-feature-classifier https://docs./2018.11/tutorials/feature-classifier/
本教程将演示如何为特定数据集训练 请注意,QIIME 2数据资源中提供了几个经过预先训练的分类器。这些基因可用于一些常见的标记基因(如16S rRNA基因)注释。其他标记基因的预训练分类器也可以在QIIME2论坛上找到。详见 https://docs./2018.11/data-resources/,**里面有Silva和Greengenes的全长和V4区的分类器供下载直接使用**。 下载并导入参考序列Obtaining and importing reference data sets 这里我们使用 # 创建工作目录mkdir training-feature-classifierscd training-feature-classifiers# 下载参考OTU数据集wget \ -O '85_otus.fasta' \ 'https://data./2018.11/tutorials/training-feature-classifiers/85_otus.fasta'# 下载参考数据集的物种分类信息wget \ -O '85_otu_taxonomy.txt' \ 'https://data./2018.11/tutorials/training-feature-classifiers/85_otu_taxonomy.txt'# 下载代表性序列文件wget \ -O 'rep-seqs.qza' \ 'https://data./2018.11/tutorials/training-feature-classifiers/rep-seqs.qza' 接下来,我们将这些数据导入到qiime 2对象中。由于Greengenes序列物种注释文件(85_otu_Taxonomy.txt)是一个不带标题的制表符分隔文件(tsv),因此必须指定 # 导入参考序列qiime tools import \ --type 'FeatureData[Sequence]' \ --input-path 85_otus.fasta \ --output-path 85_otus.qza# 导入物种分类信息qiime tools import \ --type 'FeatureData[Taxonomy]' \ --input-format HeaderlessTSVTaxonomyFormat \ --input-path 85_otu_taxonomy.txt \ --output-path ref-taxonomy.qza 提取参考序列Extract reference reads Werner等人,2012年研究表明,当一个朴素贝叶丝(Naive Bayes)分类器只训练被测序的目标序列的区域时,16S rRNA基因序列的分类准确度会提高。这种策略不一定对其他标记基因同样有效(见下文真菌分类注释)。我们从《4人体各部位微生物组分析》教程中知道,我们试图对序列进行分类的是120个碱基的单端序列,这些读取是用515F/806R引物对16S rRNA基因序列进行扩增的产物。我们在这里通过从参考数据库中提取基于与该对引物匹配的区域,然后将结果截取至120个碱基来对此进行优化。 # 按我们测序的引物来提取参考序列中的一段qiime feature-classifier extract-reads \ --i-sequences 85_otus.qza \ --p-f-primer GTGCCAGCMGCCGCGGTAA \ --p-r-primer GGACTACHVGGGTWTCTAAT \ --p-trunc-len 100 \ --o-reads ref-seqs.qza 输出结果:
训练分类集Train the classifier 我们将使用下面的命令训练Naive Bayes分类器 # 基于筛选的指定区段,生成实验特异的分类集qiime feature-classifier fit-classifier-naive-bayes \ --i-reference-reads ref-seqs.qza \ --i-reference-taxonomy ref-taxonomy.qza \ --o-classifier classifier.qza 生成分类器文件:classifier.qza 测试分类集Test the classifier 下面我们使用训练好的分析器,对《4人体各部位微生物组分析Moving Pictures》中的代表序列进行物种注释。 # 使用训练后的分类集对结果进行注释qiime feature-classifier classify-sklearn \ --i-classifier classifier.qza \ --i-reads rep-seqs.qza \ --o-classification taxonomy.qza# 可视化注释的结果qiime metadata tabulate \ --m-input-file taxonomy.qza \ --o-visualization taxonomy.qzv
感兴趣的朋友,可以拿这个训练后的结果,和之前的比较。看看有什么变化? 分类真菌ITS序列Classification of fungal ITS sequences 根据我们的经验,在Unite参考数据库上训练的Fungal ITS分类器不会从提取/修剪引物扩增区域的方法中改善结果。我们建议在完整参考序列上训练Unite分类器。此外,我们推荐使用“developer”版本序列(位于qiime兼容版本下载中),因为标准版序列的本已经被修剪到指定区域(不包括可能存在于标准引物产生的扩增子中的侧翼rRNA基因的部分)。 ReferenceBolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet C, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope E, Da Silva R, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley G, Janssen S, Jarmusch AK, Jiang L, Kaehler B, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MG, Lee J, Ley R, Liu Y, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton J, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson, II MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CH, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, Caporaso JG. 2018. QIIME 2: Reproducible, interactive, scalable, and extensible microbiome data science. PeerJ Preprints 6:e27295v2 https:///10.7287/peerj.preprints.27295v2 译者简介刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组学、数据分析与可重复计算和植物微生物组、QIIME 2项目参与人。发于论文12篇,SCI收录9篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章400+篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲》 |
|