分享

16S测序分析系列(一)菌属丰度表获取

 高六博 2019-03-20

Miseq 16S amplicon V3V4 PE300测序是目前菌群结构谱研究最为常用的测序手段。本文将以此类测序的下机数据为例展示“如何从Miseq测序数据中快速提取出可以用来统计分析的菌属相对丰度表”的工作流程。丰度表是做菌群研究最为基本的数据,要想发文章还必须做大量的统计分析。在以后的文章中我们会继续推出一些统计分析方法,敬请期待!

软件准备

Linux环境:

1.       FastQC

质检下机数据

软件地址:https://www.bioinformatics./projects/fastqc/

2.       Cutadapt

切除测序引物

软件地址:https://cutadapt./en/stable/

3.       QIIME2

序列拼接、质控、比对、注释

软件版本:QIIME2 2018.4或QIIME2 2018.8

软件地址:https:///

Windows环境:

1.       Filezilla

下载Linux环境中的数据或上传数据到Linux环境

软件地址:https:///

2.       Excel

数据处理

3.  QIIME2 view

查看QIIME2输出的以.qzv为后缀的文件

网页地址:https://view./

数据准备

1.  Miseq 16S amplicon V3V4测序下机数据

*R1.fastq,*R2.fastq

2.  测序引物

p1 -> CCTACGGGNGGCWGCAG

p2 -> GACTACHVGGGTATCTAATCC

3.  表型文件metadata.txt

准备存放样本信息的表型文件,以tab键为分隔符。可以先在Excel中做表,然后保存为tsv文件。

格式如下:


4.  Greengenes细菌16S全长序列数据库

下载地址:https://docs./2019.1/data-resources/

下载得到gg_13_8_otus.tar.gz(最新版,大小为305M)后将其解压得到99_otus.fasta(序列)和99_otu_taxonomy.txt(分类)两个文件,文件获取如下:


流程概览


工作流程

1. FastQC质检

1.1. 合并R1、R2

cat *R1.fastq > merge.R1.fastq

cat *R2.fastq > merge.R2.fastq

1.2. FastQC质检

可以使用-t:指定线程数和-o:指定输出位置

fastq -t 8 merge.R1.fastq

fastq -t 8 merge.R2.fastq

1.3. 使用Filezilla下载结果文件并打开


2. Cutadapt切引物

2.1. 检查引物的位置和序列

位置:5’端

序列:p1 -> CCTACGGGNGGCWGCAG; p2 -> GACTACHVGGGTATCTAATCC


2.2. 切引物

cutadapt -g CCTACGGGNGGCWGCAG -G GACTACHVGGGTATCTAATCC -o *R1.fastq -p *R2.fastq *r1.fastq *r2.fastq --core=2

由下图可见99%以上的Reads都包含引物


2.3.   质检

Reads起始端质量明显提高,末端的低质量碱基可利用下面的DADA2来处理


3. QIIME2数据导入

3.1. 制作manifest.txt列表文件,存放每一个样本的信息,格式如下:

sample-id,absolute-filepath,direction

sample-1,/filepath/sample1_r1.fastq,forward

sample-1,/filepath/sample1_r2.fastq,reverse

sample-2,/filepath/sample2_r1.fastq,forward

sample-2,/filepath/sample2_r2.fastq,reverse

注意不能有空格、换行符、制表符等

3.2. 格式转换

qiime tools import \

  --type 'SampleData[PairedEndSequencesWithQuality]' \

  --input-path manifest.txt \

  --output-path manifest.qza \

  --source-format PairedEndFastqManifestPhred33

3.3. 可视化检查

qiime demux summarize \

  --i-data manifest.qza \

  --o-visualization manifest.qzv

manifest.qzv文件需要从Linux中下载后再拖拽到qiime2 view网页中才能打开。此处可以得到质检矢量图,通过放大观察可以清楚的判断碱基质量明显下降的位置,从而辅助确定下一步中的reads1_cutpointreads2_cutpoint


4. 用DADA2进行切割、去嵌合体、拼接等

4.1. 使用10个线程运行DADA2

为保证碱基质量这里再次要对Reads进行切割。Reads起始端质量很高时N1 N2设为0即可;观察manifest.qzv确定reads1_cutpointreads2_cutpoint,这里我将其分别设为275250

qiime dada2 denoise-paired \

  --i-demultiplexed-seqs manifest.qza \

  --p-trim-left-f N1 \

  --p-trim-left-r N2 \

  --p-trunc-len-f reads1_cutpoint \

  --p-trunc-len-r reads2_cutpoint \

  --o-table table.qza \

  --o-representative-sequences rep-seqs.qza \

  --o-denoising-stats denoising-stats.qza

  --p-n-threads 10

此步骤会生成三个新文件:

denoising-stats.qza是质检统计,如下表;

table.qza是细菌特征丰度表;

rep-seqs.qza是细菌特征代表性序列

4.2. DADA2统计结果可视化

qiime metadata tabulate \

  --m-input-file denoising-stats.qza \

  --o-visualization denoising-stats.qzv

最后一列是Clean data,它将被用于下游分析


5. 引物特异性菌群比对数据库

5.1. 转换格式

99_otus.fasta(序列)和99_otu_taxonomy.txt(分类)两个文件的格式转换QIIME2能识别和利用的格式

qiime tools import \

  --type 'FeatureData[Sequence]' \

  --input-path 99_otus.fasta \

  --output-path 99_otus.qza

qiime tools import \

  --type 'FeatureData[Taxonomy]' \

  --input-format HeaderlessTSVTaxonomyFormat \

  --input-path 99_otu_taxonomy.txt \

  --output-path 99-taxonomy.qza

5.2. 抽提V3V4模板序列

用测序引物序列从Greengenes数据库中的16S全长序列99_otus.qza中抽提出引物特异性的细菌参考序列,就会得到本研究特异性的参考序列

qiime feature-classifier extract-reads \

  --i-sequences 99_otus.qza \

  --p-f-primer CCTACGGGNGGCWGCAG \

  --p-r-primer GACTACHVGGGTATCTAATCC \

  --o-reads 99-v3v4-seqs.qza

5.3. 训练V3V4分类器

qiime feature-classifier fit-classifier-naive-bayes \

  --i-reference-reads 99-v3v4-seqs.qza \

  --i-reference-taxonomy 99-taxonomy.qza \

  --o-classifier gg-13-8-99-v3v4-classifier.qza

6. 细菌分类学注释

6.1. 比对

把DADA2分析得到的细菌特征代表性序列rep-seqs.qza和训练好的分类器gg-13-8-99-v3v4-classifier.qza进行比对,获得具体的细菌分类信息taxonomy.qza

qiime feature-classifier classify-sklearn \

  --i-classifier gg-13-8-99-v3v4-classifier.qza \

  --i-reads rep-seqs.qza \

  --o-classification taxonomy.qza

6.2. 丰度统计

将细菌特征丰度表table.qza细菌分类信息taxonomy.qza进行整合获得完整的细菌分类丰度表,包含界、门、纲、目、科、属、种多水平的细菌丰度信息

qiime taxa barplot \

  --i-table table.qza \

  --i-taxonomy taxonomy.qza \

  --m-metadata-file metadata.tsv \

  --o-visualization taxa-bar-plots.qzv

7. 数据处理

7.1. 获取属水平菌丰度表

QIIME2 view网页中打开taxa-bar-plots.qzv,下载level6的CSV文件,如下:


7.2. 标准化菌属丰度表

把CSV文件导入到Excel中进行标准化,即每个菌属的原始丰度除以该菌所在样本的总菌属丰度得到标准相对菌属相对丰度

处理方法如下:


以上就是我个人总结的“从Miseq测序数据中快速提取出可以用来统计分析的菌属相对丰度表”全部工作流程,如有问题可以留言交流,以后会继续推出“如何利用该菌属相对丰度表进行统计分析”的文章,如有兴趣可以关注。

转自生信草堂公众号,已授权

数据请在公众号获取~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多