分享

QIIME 2教程. 18使用q2-vsearch聚类ASVs为OTUs(2024.2)

 宏基因组 2024-04-25 发布于北京

使用q2-vsearch聚类序列为OTUs

https://www.bilibili.com/video/BV1sE421L7yi/

Clustering sequences into OTUs using q2-vsearch

目前QIIME2支持三个聚类方式:无参(De novo), 有参(closed-reference), 和半有参(open-reference clustering),即先有参比对再将无法比对序列进行无参聚类)。

目前运行vsearch仅能对拆分和质控后的数据进行OTUs聚类 (如SampleData[Sequences]对象), 或质控后的特征表和代表性序列(如FeatureTable[Frequency]FeatureData[Sequence]对象, 这些文件可以由qiime dada2 denoise-*qiime deblur denoise-*命令产生)。第一选择需要两步(在将来可能一步就搞定)。第二选择只需一步完成。

QIIME 1用户:在QIIME1中,由split_libraries*.py命令进行样本序列拆分、质量过滤,生成文件为seqs.fna

在学习完本教程之后,您将知道如何运行从头,封闭参考和开放参考集群。这将从一个QIIME 1 seqs.fna文件开始进行说明,该文件将被读取到SampleData [Sequences]工件中。如果您已经具有要聚类的FeatureTable [Frequency]和FeatureData [Sequence]工件,则可以跳到本教程的FeatureTable [Frequency]和FeatureData [Sequence]聚类。

下载数据

mkdir -p otu-clustering
cd otu-clustering

wget -c https://data./2024.2/tutorials/otu-clustering/seqs.fna
wget -c https://data./2024.2/tutorials/otu-clustering/85_otus.qza

序列去冗余

Dereplicating a SampleData[Sequences] artifact

如果您开始分析时使用的是样本拆分、质量控制的序列,例如QIIME 1的seqs.fna文件中的序列,那么第一步是将数据导入为QIIME 1对象。这里使用的语义类型是SampleData[Sequences],表示数据是一个或多个样本的序列集合。

qiime tools import \
--input-path seqs.fna \
--output-path seqs.qza \
--type 'SampleData[Sequences]'

输出对象:

  • 85_otus.qza: 按85%相似度聚类的OTU。

    查看 | 下载

  • seqs.qza: 导入的序列文件。

    查看 | 下载

导入后,使用dereplicate-sequences进行序列去冗余

qiime vsearch dereplicate-sequences \
--i-sequences seqs.qza \
--o-dereplicated-table table.qza \
--o-dereplicated-sequences rep-seqs.qza

输出结果:

  • rep-seqs.qza: 代表序列。

    查看 | 下载

  • table.qza: 特征表。

    查看 | 下载

序列去冗余dereplicate-sequences的输出是一个FeatureTable[Frequency]和一个FeatureData[Sequence]对象。FeatureTable[Frequency]对象是特征表,指示在每个样本中观察到的每个Amplicon序列变体(ASV)的次数。FeatureData[Sequence]对象包含每个功能标识符到定义该特征序列变量的映射。这些文件类似于qiime dada2 denoise-*qiime deblur denoise-*生成的文件,只是在去噪过程中没有应用去噪、去除嵌合体或其他质量控制。(在本例中,这些数据的唯一质量控制是在导入import步骤之前,即在QIIME 2之外的程序进行的)

特征[频率]和特征数据[序列]的聚类

Clustering of FeatureTable[Frequency] and FeatureData[Sequence]

QIIME2中的OTU聚类目前应用于一个 FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。这些对象可以来自各种分析流程,包括qiime vsearch dereplicate-sequences(如上所示)、qiime dada2 denoise-*qiime deblur denoise-*,或者下面所示的一个聚类过程(例如,以较低的百分比序列一致率对数据进行重新聚类)。

FeatureData[Sequence]对象中的序列两两比对(de novo 聚类)或比对参考数据库(closed-reference聚类),然后可折叠特征表FeatureTable中的特征,从而形成输入特征的新特征聚类。

无参/从头聚类

De novo clustering

特性表的无参(从头/新)聚类(De novo clustering)可以用如下命令实现。在这个例子中,聚类是按序列相似度99%的水平执行的,以创建99%的OTU。

qiime vsearch cluster-features-de-novo \
--i-table table.qza \
--i-sequences rep-seqs.qza \
--p-perc-identity 0.99 \
--o-clustered-table table-dn-99.qza \
--o-clustered-sequences rep-seqs-dn-99.qza

输出对象:

  • table-dn-99.qza: 99%相似度聚类的OTUs表。

    查看 | 下载

  • rep-seqs-dn-99.qza: 99%相似度聚类的代表序列。

    查看 | 下载

该过程的输出是FeatureTable [Frequency]对象和FeatureData [Sequence]对象。FeatureData [Sequence]对象将包含定义每个OTU聚类的质心(centroid)序列,即最高丰度序列。

有参聚类

Closed-reference clustering

特性表的有参聚类可以用如下方法执行。在这个例子中,聚类是在85%的一致性下对GreenGenes 13_8 85%的OTU参考数据库进行比对的。参考数据库作为FeatureData[Sequence]对象。

注释:有参OTU聚类通常以更高的相似度合并,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比处对聚集在同一百分比相似度的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行有参聚类的最佳方法。

qiime vsearch cluster-features-closed-reference \
--i-table table.qza \
--i-sequences rep-seqs.qza \
--i-reference-sequences 85_otus.qza \
--p-perc-identity 0.85 \
--o-clustered-table table-cr-85.qza \
--o-clustered-sequences rep-seqs-cr-85.qza \
--o-unmatched-sequences unmatched-cr-85.qza

输出对象:

  • table-cr-85.qza: 特征表。

    查看 | 下载

  • unmatched-cr-85.qza: 无法比对的序列。

    查看 | 下载

  • rep-seqs-cr-85.qza: 代表序列。

    查看 | 下载

cluster-features-closed-reference输出的结果是一个FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。在这种情况下,序列FeatureData[Sequence]对象不是定义FeatureTable中特征的序列,而是特征ID及其按85%相似度匹配序列的集合。作为输入提供的参考序列被用作定义有参OTU中的特征序列。

半有参/开放参考聚类

Open-reference clustering

像上面的有参聚类示例一样,可以使用qiime vsearch cluster-features-open-reference命令执行半有参(开放参考)聚类。

注:半有参OTU聚类通常以更高的百分比一致率执行,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比一致率对有相同百分比一致率聚类的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行半有参(开放参考)聚类的最佳方法。

qiime vsearch cluster-features-open-reference \
--i-table table.qza \
--i-sequences rep-seqs.qza \
--i-reference-sequences 85_otus.qza \
--p-perc-identity 0.85 \
--o-clustered-table table-or-85.qza \
--o-clustered-sequences rep-seqs-or-85.qza \
--o-new-reference-sequences new-ref-seqs-or-85.qza

输出对象:

  • new-ref-seqs-or-85.qza: 新参考序列。

    查看 | 下载

  • rep-seqs-or-85.qza: 代表序列。

    查看 | 下载

  • table-or-85.qza: 特征表。

    查看 | 下载

cluster-features-open-reference输出结果是一个FeatureTable[Frequency]对象和两个FeatureData[Sequence]对象。其中一FeatureData[Sequence]对象表示聚集的序列,而另一个对象表示新的参考序列,由用于输入的参考序列以及作为内部重新聚集步骤的一部分聚集的序列组成。

译者简介

刘永鑫,研究员,博士生导师。2014年博士毕业于中国科学院大学生物信息学专业,之后在中国科学院遗传与发育生物学研究所工作历任博士后、工程师、高级工程师,2022年10月加入中国农业科学院深圳农业基因组研究所担任课题组长。研究方向为宏基因组方法开发、功能挖掘和科学传播。参与QIIME 2项目,主导开发了易扩增子(EasyAmplicon)、易宏基因组(EasyMetagenome)、培养组(Culturome)分析流程、数据分析网站(EVenn、ImageGP) 和R包(amplicon、ggClusterNet)等,目标是全面打造宏基因组领域方法学基础设施,推动微生物组学发展。以(共同)第一或通讯作者在Nature Biotechnology、Nature Microbiology、iMeta等期刊发表论文30余篇。合作在Science、Cell Host & Microbe、Microbiome等期刊发表论文20余篇,累计发表论文50余篇,被引用17000+次。主编《微生物组实验手册》专著,由300多位同行参与,共同打造本领域长期更新的中文百科全书。创办宏基因组公众号,16万+同行关注,分享原创文章3千余篇,累计阅读量超4千万,打造本领域最具影响力的科学传播平台。发起《iMeta》期刊,联合全球千位专家共同打造宏基因组学、微生物组和生物信息学顶刊,解决我国本领域期刊出版卡脖子问题。课题组长期招聘博士后、客座研究生,有兴趣可加微信yongxinliu详谈。

杨海飞,青岛农业大学,生物信息学硕士在读,基因组所刘永鑫组客座硕士。负责本次版本的更新和测试。

Reference

https://docs./2024.2

Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. https:///10.1038/s41587-019-0209-9

宏基因组推荐

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多