扩增子分析工具QIIME简介

生物_医药_科研 2018-12-21

展开全文

扩增子分析工具QIIME简介

在微生物16S 扩增子测序领域，QIIME（Quantitative Insights Into Microbial Ecology）是分析的一个重要工具。QIIME编程语言为Python，主页为http:///。本文将介绍QIIME的主要分析流程，以期望对于从事这部分研究人员和老师有所帮助。

QIIME安装

QIIME Pipeline整合多种程序，关联关系比较复杂。建议直接使用 VituralBox (https://www./)和QIIME虚拟机(http:///install/virtual_box.html)。如果用Mac，可以直接下载MacQIIME (http://www./softwear/macqiime)。

Linux 系统安装QIIME的过程可能会出现错误提示(Error when starting the 64-bit QIIME Virtual Box on Windows), 很可能是因为电脑没有开通virtualization technology，可以进入电脑BIOS开通。

QIIME分析流程

(1) 质量控制

QIIME自带的质控流程比较复杂。涉及很多的步骤：

convert_fastaqual_fastq.py: 将fastq拆分为fasta和quality

quality_scores_plot.py: 根据phred score对reads每个碱基质量作图，确定低质量 reads的位置

truncate_fasta_qual_files.py: 根据上一步取得的位置去除末端低质量序列

convert_fastaqual_fastq.py: 将 fasta和quality合并为fastq

对于有测序分析经验的人来说，可以用其余工具(cutadapt、trim_galore、fastx_toolkit)来处理得到高质量reads，作为下一步分析的输入文件。

(2) 合并paired-end reads

join_paired_ends.py: 通常扩增子测序采用paired-end测序，根据需要，16S v3-v4区片段大约为300bp左右，根据重叠序列将两端reads合并为一个长的序列。

(3) 去除barcode和引物序列

合并后的序列通常会有barcode和引物序列，需要去除这些得到 clean reads。没有编程经验的话需要采用BioEdit 工具手动来完成这步。

(4) OTUs的分类和注释

OUT (operational taxonomic units)是人为给某一个分类单元(科、属、种等)设置的同一标志。通常按照97%的相似性阈值将序列划分为不同的OUT，每一个OUT通常被认为是一个微生物物种。相似性低于97％的OUT可以认为属于不同的种。

QIIME里可以采用不同的方法来分类OUTs:

pick_closed_reference_otus.py: 将序列比对到已知的数据库。优点是速度快，可以比较不同类别的分类标记。缺点是会丢失新的物种信息。

pick_open_reference_otus.py: 分为两步。首先将序列比对到参考数据库中 (类似于closed方法)，接下来会将未比对上的序列进行一个de novo clustering。这种方法会获得比较全的序列信息，而且速度也优于将所有序列全部de novo聚类。

分类数据库可以采用GreenGenes (http://greengenes./)、Silva (https://www./)和RDP (http://rdp.cme./)。

biom convert：将提取的OUT 文件转化为表格形式的OUT_table

(5) OUT获得后的质量控制

得到的OUT表格通常还需要进一步质量控制，包括去除丰度小于0.005％的 OUTs，和在所有样品中丰度都低于1% 或0.5%的OTUs。

还有一步重要的是去除嵌合子。嵌合子的产生主要是由于PCR过程中模版的不完全延伸。将去除低丰度的OUT序列重新比对，鉴定嵌合子(identify_chimeric_seqs.py)。

(6) 多样性分析

core_diversity_analyses.py: 包括Alpha和Beta 分析

Alpha多样性是指一个生态环境内物种的多样性，主要是评价环境内的多样性程度。常用的度量指标包括计算菌群多样性的Shannon diversity index、Simpson diversity index 和菌群丰度的Chao1 richness estimator。

Beta多样性是指不同生态系统之间的物种多样性，衡量时空尺度上物种组成的变化。Beta多样性不仅描述环境内物种的数量，还考虑这些种类的相同性以及彼此之间的关系。种类相似性越低，Beta多样性越高。

PCoA分析 (Principal coordinates analysis): 一种研究数据相似性或差异性的可视化方法。通过OTUs对每个微生物种生成一个矩阵以及OTUs之间的遗传距离。通过可视化作图，距离越近的点表示相似度越高。

Unweighted分析：只考虑OUT是否在群落中出现，不考虑其丰度。

Weighted分析：根据每个OUT的相对丰度来计算权重，可以更进一步定量的检测样品间不同谱系上的变异。

需要注意的是，如果样品间测序深度差别太大，有可能导致多样性的计算产生bias。

(7) 其它分析

compare_categories.py: 分析样品间的差异是否具有统计学意义

make_phylogeny.py：构建系统发育树

make_otu_network.py: OUT 网络分析

还可以结合R，绘制韦恩图、热图、系统发育树图等等。

小结：

微生物群落多样性测序与功能分析是一个比较复杂的过程。主要分为数据预处理、OUT分析和样本差异分析。下游分析除了上述提到之外还可以进行微生物与环境因子或不同处理的相关性分析、多重聚类分析、功能差异分析(PICRUSt)等等。关于QIIME更多的信息可以去QIIME网站上获得(http:///tutorials/index.html) 或关注今年新发布的QIIME2。