16S测序结果解读2—物种丰度统计和系统发育树

高六博 2018-06-26

展开全文

上期我们介绍了稀释性曲线和Rank Abundance曲线的意义，这期主要介绍物种丰度统计和系统发育树的构建。

1. 物种丰度统计

16S的数据分析，原理是将相似度较高（一般97%以上）的序列进行归类，并称之为一个OTU，每一个OTU可以认为是一个菌属（16S很难精确到种水平）。对每个OTU进行注释即可知道对应的菌属名称，注释的方法是将OTU的代表序列与数据库进行比对，找出其最相近且可信度达80%以上的种属信息。最后统计每个OTU对应的所有序列数目，将得到的结果记录在表格文件中，即可得到每个属及其对应的序列数目。如下图，第一二列为物种分类信息，后面1-9每一列是一个样本。

通常我们会将序列数除以总序列数得到每个菌的相对丰度，并且绘制累积柱状图（如下图）。图中NA1-NA7代表7个不同的样本，每一种颜色代表一种菌，某种颜色占总柱子的百分比显示了该菌在总菌中所占的百分比，这种柱状图可以直观的比较不同样本的物种组成。

此外，柱状图左侧是样本的聚类分析结果，基于样本的群落组成情况进行聚类（bray-curtis 算法），主要展示样本的物种组成相似情况。处于同一个分支下的样本，物种组成相似度较高，距离越远的样本物种组成差异越大。

2. 系统发育树

前面，我们已经得到了物种（OTU）注释信息以及它的丰度，这一步要做的是将物种信息回归至数据库的分类学系统关系树中，从整个分类系统上全面了解测序的环境样品中所有微生物的进化关系。NCBI数据库提供了已有微生物物种的分类学信息数据库（ftp://ftp.ncbi.nih.gov/pub/taxonomy/），该数据库还包含了微生物的分类学系统关系树的信息。另外，还可以加上每个物种丰度情况，全面展示物种进化关系和在不同样本中的丰度差异。

如下图所示，图中的支点表示该处在NCBI 数据库中有相应的Taxonomy 记录，支点出有英文名标记物种分类信息，距离越近的菌表示进化关系越近。此外，每个支点处都有一个饼状图，标示不同样品的相对丰度差异。图中四种颜色代表了4个不同的样本，在最上面一支中，橙色样本（sample3）的丰度高于其他样本。