QIIME

sailing_387 2016-08-19

展开全文

QIIME--16s测序生物信息培训课程(原创)
名词解释
16S rRNA
16S rRNA 基因是编码原核生物核糖体小亚基的基因，长度约为1542bp，其分子大小适中，突变率小，是细菌系统分类学研究中最常用和最有用的标志。其序列包含可变区（Variable region）和保守区（constant region）。可变区序列因细菌而异，且变异程度与细菌的系统发育密切相关，通过提取环境样品的DNA，并扩增和检测其中的一段或几段区域，可以了解环境样品(土壤、肠道、海洋)中细菌的种类和丰度。
OTU
如果序列之间，比如不同的 16S rRNA序列的相似性高于97%就可以把它定义为一个OTU，每个OTU对应于一个不同的16S rRNA序列，也就是每个OTU对应于一个不同的细菌（微生物）种。通过OTU分析，就可以知道样品中的微生物多样性和不同微生物的丰度。
测序区域
由于16s rDNA较长（1.5kb），考虑到测序平台的读长限制，我们只能对可变区进行测序。16s rDNA包含有9个可变区，分别是v1-v9。一般我们对v3，v3-v4和v6可变区域进行扩增和测序。
主要内容
QIIME安装
测序数据处理
OTU分析与注释
Venn图绘制
Heatmap图绘制
样品复杂度分析 (Alpha diversity)
多样品比较分析 (Beta diversity)
系统树的构建
其他分析
详细内容
1. Qiime的安装(http:///)
在 http:///官网下载 VirtualBox和QIIME虚拟机，然后安装VirtualBox，导入QIIME虚拟机，具体图示如下。

我的电脑为什么安装不了？那是因为您的电脑可能没有开通VT(virtualization technology)，赶紧进入BIOS开通吧。

2. Linux常见命令
大家如果没有用过linux的话，请学会一下几个常用的linux命令吧。如果大家想对我们的课程有详细的详解的话，大家可以在掏宝搜索“16s测序分析”就能找到我们的课程了。
cd 切换到目录
pwd 显示当前目录完整路径
mkdir/touch 新建目录/文件
ls 查看文件与目录
cp 复制文件
mv 移动文件、目录或更名
rm 删除文件或目录
zip/tar 解压缩文件
history 查看历史命令
wget 命令行的下载工具
shutdown/reboot 关机/重启
3. FASTQ数据下载
主要有以下两个网站下载原始的FASTQ：
EBI (http://www./)
SRA (http://www.ncbi.nlm./sra/)
4. 样品信息文件(map.txt)
#SampleIDBarcodeSequenceLinkerPrimerSequenceSampleTypeDescription
SRR1370913AGCTGACTAGTCGTGCCAGCMGCCGCGGTAAtumorSRR1370913
SRR1370914AGCTGACTAGTGGTGCCAGCMGCCGCGGTAAtumorSRR1370914
SRR1370915AGCTGACTAGTAGTGCCAGCMGCCGCGGTAAnormalSRR1370915
SRR1370920AGCTGACTAGTTGTGCCAGCMGCCGCGGTAAnormalSRR1370920
第一列必须是#SampleID，为可区分的数字，字母或。每一行的这个值应该是唯一的。
第二列必须为BarcodeSequence。每一行的这个值应该是唯一的。
第三列必须为LinkerPrimerSequence，为扩增样品的引物。
后面的列可以根据样品的特点加以描述，但是每一列必须包含至少两个值，就是指定样品信息，就可以在这个位置设置了。
最后一列必须是Description。每一个样品不一样的地方，必须不一样额。
5. join_paired_ends.py (fastq-join)

6. 质量过滤 (split_libraries_fastq.py)
convert to fasta
Read too short after quality truncation
N characters
7. OTU分析与注释--pick_open_reference_otus.py
pick_otus.py------从fasta文件中提取OTUs，提取方法有cd-hit，blast，Mothur，usearch。
make_otu_table.py-------将提取出的OTUs制作成out_table，即.biom文件。
assign_taxonomy.py------使用reference中的reference_seqs和 taxonomy文件对序列分类。
biom add-metadata-------将taxa数据加入到.biom文件。
8. Venn图绘制
使用VennDiagram package可以轻松获得和高水平文章上类似的Venn（维恩）图，代码如下：

9. Heatmap图

10. core_diversity_analyses.py（Alpha和Beta分析）
single_rarefaction.py------Rarify the OTU table
beta_diversity.py-------beta多样性
principal_coordinates.py------PCoA图形化
alpha_diversity.py-------Alpha多样性
make_rarefaction_plots.py-------稀释曲线
summarize_taxa.py------Summarize Taxonomy
plot_taxa_summary.py------Taxa summary plots
Alpha多样性是指一个特定区域或者生态系统内的多样性，常用的度量指标有Chao1 丰富度估计量（Chao1 richness estimator）、香农多样性指数（Shannon diversity index）、辛普森多样性指数（Simpson diversity index）等。
计算菌群丰度：Chao；
计算菌群多样性：Shannon、Simpson。
Chao1：是用chao1 算法估计群落中含OTU 数目的指数，chao1 在生态学中常用来估计物种总数，由Chao (1984) 最早提出。Chao1值越大代表物种总数越多。
计算公式：Schao1=Sobs+n1(n1-1)/2(n2+1)

Shannon-Wiener 曲线，是利用shannon指数来进行绘制的，反映样品中微生物多样性的指数，利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线，以此反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时，说明测序数据量足够大，可以反映样品中绝大多数的微生物物种信息。
Simpson：用来估算样品中微生物的多样性指数之一，在生态学中常用来定量的描述一个区域的生物多样性。Simpson 指数值越大，说明群落多样性越高。
Rank-Abundance曲线：同时解释样品所含物种的丰富程度和均匀程度。横坐标代表物种排序的数量；纵坐标代表观测到的相对丰度。物种的丰富程度由曲线在横轴上的长度来反映，曲线越宽，表示物种的组成越丰富；物种组成的均匀程度由曲线的形状来反映，曲线越平坦，表示物种组成的均匀程度越高。而曲线快速陡然下降表明样本中的优势菌群所占比例很高，多样性较低。

Beta多样性是生态系之间的种多样性，它包含分类单位的比较生态系内的每一独特性。即衡量群落之间的差别。Beta多样性不仅描述生境内生物种类的数量，同时也考虑到这些种类的相同性及其彼此之间的位置。不同生境间或某一生态梯度上不同地段间生物种类的相似性越差，Beta生物多样性越高。
PCoA分析，即主坐标分析（PCoA，Principal Coordinate Analysis）可以从复杂的多维度数据中提取和可视化展示主要的高信息量突变,与PCA的主要思想类似。它将距离矩阵的信息转变成在一系列直交轴中显示，这样某种变量的最大值体现在第一个成分坐标中，而另一种变量的最大值体现在另一个成分坐标上。距离越近的点代表样本间相似度越高，理论上生物学重复的样本应该聚在一起。

11. 系统树
系统发生树（英文：phylogenetic tree或evolutionary tree）是表明被认为具有共同祖先的各物种相互间演化关系的树，又被称为系统发育树、系统演化树、系统进化树、种系发生树、演化树、进化树、系统树。它用来表示系统发生研究的结果，用它描述物种之间的进化关系。
filter_otus_from_otu_table.py------挑选丰度>1‰的OTU
filter_fasta.py------获得丰度>1‰OTU的fasta文件
make_phylogeny.py-------构建系统树
ggtree.R------系统树可视化
为了更好的展示系统树，我们采用了最新的ggtree R包实现系统树的可视化。我们主要展示两个系统树，即circos树和热图树。ggtree.R代码如下：