【原】NanoPlot：三代纳米孔测序数据质量评估

宏基因组 2020-10-09

展开全文

简介

二代测序最常用的质量评估软件是FastQC，多样本时可进一步结合MultiQC。此外速度超快的fastp也特别推荐，而且包括质量评估、质量控制等功能，可以说是国产软件之光，详见下方详细教程：

三代纳米孔(Nanopore)测序数据与二代Illumina测序数据相比，具有读长更长、错误率高、长度分布不均匀等特点。传统的二代数据质量评估软件不适合，甚至无法开展分析(fastqc处理三代fastq文件直接报错)。今天为大家介绍一款常用的Nanopore数据评估软件——NanoPlot，该软件于2018年发表于Bioinformatics(https:///10.1093/bioinformatics/bty149)，截止2020年9月16日Google Scholar统计被引218次。

图1. NanoPlot和NanoComp的绘图示例。（A）累积产量图（B）测序芯片(Flow cell)活性热图，显示每个通道的读长数量。（C）小提琴图，比较随时间变化的基本测序质量。（D）NanoComp图，比较了大肠杆菌数据集与肺炎克雷伯菌和人类数据集的对数转换读取长度。（E）对数转换后的读取长度与碱基质量对应的蜂窝图，边缘添加直方图的二元图。（F）同一性百分比与读长质量的核密度图，边缘添加密度图的二元图

NanoPlot网址

Github源代码和教程: https://github.com/wdecoster/NanoPlot

Bioconda软件安装: http://bioconda./recipes/nanoplot/README.html

在线版：http://nanoplot./ ，可以使用Albacore/Guppy产生的摘要文件(sequencing_summary.txt)作为输入，大小限制为100MB

软件安装

对于原始FASTQ数据，通常几G ~ 几十G，就需要在本地Linux服务器下自行安装软件，以便开展分析。

NanoPlot对依赖软件的版本要求严格，直接安装通常无法使用。推荐新建虚拟环境，再通过Bioconda安装。没安装过Conda，参考之前的教程 - Nature Method：Bioconda解决生物软件安装的烦恼

#安装NanoPlot
conda create -n nanoplot -y -c bioconda nanoplot
# 启动虚拟环境，每次使用前必用
conda activate nanoplot

此外官网还有pip安装的教程pip install NanoPlot可选。conda无效时还可选用docker，在conda的页面有下载说明(每个conda发布软件都有对应的docker版本)

输入文件

测序公司每个样本会返回fastq和sequencing_summary.txt文件均可作为此软件的输入。

FASTQ文件作为输入，使用2019年NBT中牛瘤胃中的数据，链接见方法结尾的数据可用部分，点击编号跳转EBI的数据页 https://www./ena/browser/view/PRJEB31266 ，翻到最后页找到3个MinION测序数据，下载最小的文件38G

# 38G
wget -c ftp://ftp.sra./vol1/run/ERR433/ERR4334940/FNFAE24884.tar.gz

我截取了4万行的小文件，27M供测试使用

wget -c http://210.75.224.110/github/Note/Nanopore/NanoPlot/MinION.fastq.gz

也可以对guppy碱基识别后生成的统计文件sequencing_summary.txt (1M)进行绘图。

wget -c http://210.75.224.110/github/Note/Nanopore/NanoPlot/sequencing_summary.txt

分析实战

启动虚拟环境

conda activate nanoplot

指定输入文件为fastq格式，指定输出目录fastq-plots(不指定输出目录默认为当前文件夹，会有一堆报告和图片非常混乱)，指定最大序列长度，使用8个线程加速，绘制六边形和点图。测试数据仅用14s，一般10GB数据10个线程需要半小时左右。结果查看输出目录中的网页报告（NanoPlot-report.html）

NanoPlot --fastq MinION.fastq.gz \
    -o fastq-plots \
    --maxlength 40000 \
    -t 8 \
    --plots hex dot

以guppy碱基识别后生成的统计文件sequencing_summary.txt为输入，指定长度进行对数转换(便于观察分布)。注：grppy统计的结果要比直接使用数据统计的结果要更丰富，推荐。

NanoPlot --summary sequencing_summary.txt \
    --loglength \
    -o summary-plots-log-transformed

以序列比对结果bam文件为输入

NanoPlot --bam alignment1.bam alignment2.bam \
--downsample 10000 \
-o bamplots_downsampled \
 -t 12 --color yellow

结果解读

每个结果目录中都有NanoPlot-report.html文件，用浏览器打开即可查看结果报告索引。我只简介其中常用的部分。

摘要统计Summary statistics

读长统计	值
平均长度 Mean read length	6,897
平均质量 Mean read quality	11
长度中位数 Median read length	5,419
质量中位数 Median read quality	11
读长数量 Number of reads	4,100
累计半总长的片段大小(N50) Read length N50	10,178
总碱基数 Total bases	28,278,076.0

此外还有质量值分位数、最高质量的5条序列和对应长度，最长的5条序列和对应质量等结果表。

长度分布 Histogram of read lengths

这是比较均匀的长度分布图。但很多时候是看不清楚的，如下图：

测序数量较大，且长度分布极不均匀且偏短，只在底部看到一条线，或一个峰。此时就需要将数据进行对数转换再观察。

对数转换的长度分布 Histogram of read lengths after log transformation

以10为底的对数转换长度。看到数据最大的峰主要分布在1K - 10K间。

此图是上面一条线图的log10转换结果，可清晰观察长度分布。结果表明这是片段化较严重的库，峰小于1 K，只比Illumina测序略长。

有权重的长度分布 Weighted Histogram of read lengths

长序列可提供的信息更多，一个1 MB的序列比100 bp的序列信息丰富1万倍。此软件结果提供了带长度权重的图

X轴为长度，Y轴是碱基数量，更好地看出不同长度上的碱基数量分布。如果较紧密，可查看下面的log10转换结果

交互长度分布图 Dynamic histogram of Read length

想要精确查看每个区间的读长数量，可以鼠标在网页中的图上移动查看：

长度产出图 Yield by length

X轴为长度，Y轴为产量的频率。一般为越长越少。

读长与质量蜂窝图 Read lengths vs Average read quality plot using hexagonal bins

六边形图(蜂窝图)展示长度和质量的分布，色深代表序列数量。两侧加柱状图进一步呈现长度和质量的分布情况。

此外还有点图，核密度如等展示方式。

其他常见结果

guppy碱基识别后生成的统计文件sequencing_summary.txt进行绘图时，会有更多种类的图。其中部分如下：

每个通道的产量分布 Number of reads generated per channel

数据随时间的产出 Cumulative yield

小提琴图展示不同时间产生读长的长度分布

小提琴图展示不同时间产生读长的质量分布

扩展功能

如果喜欢使用此软件，还可以使用作者开发的其他Nanopore数据处理工具

NanoComp: 多样本比较工具
NanoStat: 读长或比对结果的统计摘要报告
NanoFilt: 读长的过滤和剪切
NanoLyse: 从fastq文件中移除污染序列

Reference

Wouter De Coster, Svenn D’Hert, Darrin T Schultz, Marc Cruts & Christine Van Broeckhoven. (2018). NanoPack: visualizing and processing long-read sequencing data. Bioinformatics 34, 2666-2669, doi: https:///10.1093/bioinformatics/bty149

nanopore测序技术专题（十五）：利用NanoPlot进行数据质控 https://mp.weixin.qq.com/s/q9SS1KDBP6iBxmnZk0_-LQ