分享

技术贴 | 微生太宏基因组报告解读 | 第二篇:物种组成分析

 微生态 2021-04-13

本文由阿童木根据实践经验而整理,希望对大家有帮助。

原创微文,欢迎转发转载。

导读

为了研究样品物种组成及多样性信息,我们用Kraken2对所有样品的全部的有效序列进行注释分类。Kraken2是基于Kraken后研发的的最新版本(2018)。Kraken系列软件是一种使用精确k-mer匹配的分类系统,可实现高精度和快速分类速度。该分类器将查询序列中的每个k聚体与包含给定k聚体的所有基因组的最低共同祖先(LCA)匹配。Kraken2在Kraken的基础上提供了重大改进,达到了数据库构建时间更短,数据库大小更小和分类速度更快的效果。在使用完Kraken2对宏基因组测序数据进行分类。我们继续用Bracken对Kraken2得到的分类结果进行分类后贝叶斯重新估算丰度来估算宏基因组样本的物种水平或属级丰度。

一、为何选择Kraken2联合Bracken

1. Kraken被引量已达到1300+,远超同类宏基因组分类注释软件。

很多引用KrakenBracken的文章发表在NatureNature Genetics等高水平杂志,Rob Knight发起的美国肠道计划相关文章也采用了Kraken联合Bracken的方法。

2. 基于k-mer精确匹配的算法,Kraken不仅速度快,而且准确性更高;

3. 最新版本的Kraken2继承并优化了Kraken;

数据库构建时间更短,数据库大小更小和分类速度更快的效果。

4. Bracken基于贝叶斯算法大大提高了本套方法的敏感性;

详情请见

Kraken2官网https://ccb./software/kraken2/ 

Bracken官网https://ccb./software/bracken/ 

二、序列注释程度分析

基于Bracken结果的绝对丰度及注释信息,对每个样品在7个分类水平)(Kingdom, Phylum, Class, Order, Family, Genus, Species )上的序列数目占总序列数的比例进行统计,可以有效的评估样本的物种注释分辨率(注释到属/种的比例越高表示样本的注释效果越好)。使用R软件ggplot2包中的ggplot函数可对示例样本在各分类水平注释的相对程度进行堆叠图绘制,可视化结果如下。

1)结果展示

注释到各分类水平的序列在各样品中的数量分布柱形图

2)结果说明

横坐标 (Sample Name) 是样品名,纵坐标 (Sequence Number Percent) 表示注释到该水平的序列数目占总注释数据的比率,柱状图自上而下的颜色顺序对应于右侧的图例颜色顺序。每个分类水平最高值为1,代表100%的序列都得到了至少在这个级别的注释。

三、物种组成分析

基于Bracken结果的绝对丰度及注释信息,计算每个样品中的物种分别在7个分类水平的相对丰度。有了注释和相对丰度信息,再加上样品表型信息(metadata),就可以利用QIIME2中的qiime taxa barplot功能对所有的数据进行分类整理和可视化,结果如下。

1)结果展示

各分类水平的物种在各样品中的丰度分布柱形图

2)结果说明

横坐标 (Sample Name) 是样品名,纵坐标 (Relative Abundance) 表示相对丰度。微生太网页版结题报告中有交互式网页,客户可以在其中打开7分类水平的物种相对丰度图,并对样本或者物种在图片中呈现的顺序根据元数据(包括分组信息)或者相对丰度的大小进行调节,也可以下载所有分类的丰度表。Level 1234567依次界7个分类水平

3)结果统计

对示例数据分析和统计,物种组成分析能检测到的物种有:1)物种丰度:Archaea (39537), Bacteria (20076282), Phages (26), Plant sand Fungi (5259), Viruses (66)2物种占比情况:Archaea (0.20%), Bacteria (99.78%), Phages (0.00%), Plants and Fungi (0.03%), Viruses (0.00%)

四、高丰度物种分析

在课题研究过程中,人们经常喜欢探究自己的宏基因组样品中有哪些特殊物种,其中高丰度(优势)物种分析正是此类研究最常用的手段,因此我们设计了丰度前20的菌门在各个样品分布”的分析。使用R软件ggplot2包中的ggplot函数可进行数据可视化。

1)结果展示

丰度前20的菌门在各个样品中的分布柱形图

 2)结果说明

通常在种/属水平因为分类种类过多而在图例中无法全部展示所有分类,特增加本图是对图4-2进行补充。横坐标(Sample Name)是样品名,纵坐标(Sequence Number Percent)表示注释到该门水平的序列数目占总注释数据的比率,柱状图自上而下的颜色顺序对应于右侧的图例颜色顺序。在门水平没有注释的序列被归为unclassified一类。图例中最多显示最优势的20个种类,余下的相对丰度较低的物种被归类为Other在图中展示。

总结

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多