分享

技术贴 | 微生太宏基因组报告解读 | 第一篇:测序数据过滤

 微生态 2021-04-13

本文由阿童木根据实践经验而整理,希望对大家有帮助。

原创微文,欢迎转发转载。

导读

本系列的上一篇推文,即开篇中已经描述了宏基因组研究的基本思路和方法。先回顾一下,首先是收集样本和样本信息,然后是抽提样本中的总DNA,接着是对DNA进行文库构建,最后是将包含微生物群DNA信息的文库进行高通量测序。通过以上步骤能获得以G为单位的宏基因组测序数据。接下来非常重要的一个工作就是解读这些数据,即利用生物信息学软件分析测序数据中微生物群落的组成、基因、功能、通路等等。

为了提高分析的准确性和效率,在解读这些数据前还要完成一件非常重要的工作——测序数据过滤1)除去建库过程中在样本DNA上添加测序接头等序列;2)除去会影响后续生物信息学分析准确性的测序过程中产生的低质量的碱基和序列3)除去样本中可能混杂的宿主DNA序列。本篇内容分为以下三块:1)认识高通量测序数据;2)测序数据过滤的具体方法;3)测序数据的质量检查和统计。

高通量测序数据

微生太采用Illumina Novaseq平台对样本总DNA进行PE150(双端150bp长度)测序。测序仪器会把检测到的DNA序列信息以FASTQ格式的文件保存,格式如下:

FASTQ文件每四行对应一条测序序列的信息

第一行以符号“@”起始,接着是序列编号信息;

第二行为实际测得的一条碱基序列,也称一条Read

第三行通常是连接符+,也可以有其他信息

第四行第二行中对应的每个碱基测序质量

过滤

测序获得原始数据(Raw Data中难免会存在一些低质量数据和非目的数据。为了保证后续分析结果的准确性和可靠,需要根据碱基的质量信息对原始数据进行处理——过滤:1)首先使用Cutadapt彻底清除原始数据中的Illumina接头序列2再用PrinSEQ去除低质量的序列片段和可疑序列3)最后通过Bowtie2将序列比对到宿主的基因组保留没有比对到宿主基因组微生物序列做后续分析。过滤的具体方法和参数如下:

1) 去除测序接头序列

建库时需要在待测序列的两端加上测序接头。测序接头能和测序试剂中的flowcell结合辅助测序顺利进行。因为测序接头是人为加上去的序列,所以分析前需要把接头去掉。Cutadapt是除接头最常用的工具,参数如下:

2)  prinseq进一步过滤

去除长度小于50bp序列

去除平均质量分低于1/1000的序列

去除序列复杂度低于70(用entropy的方式计算)的序列;

去除 N 碱基(未知碱基)达到20bp数量的序列

去除每条序列5'10bp碱基,参数如下:

 

3)  去除宿主序列

从人体、动物体或植物等宿主中采集的微生物群标本难免会参杂宿主本身的细胞。、经核酸提取、建库和测序最终宿主DNA序列会和目的DNA序列混在一起。现在已知的物种基本都有基因组参考数据库,因此我们可以通过序列比对的方法轻松的识别和去除宿主DNA。例如,使用Bowtie2和人类基因组参考数据库hg38GRCh38可以识别和去除人体微生物群样本中的人类DNA,参数如下:

质量检查和统计

每份DNA样品经Illumina Novaseq PE150测序都会得到两份数据:上游序列Read1.fastq和下游序列Read2.fastq。序列过滤前和过滤后,都要用FastQC统计这些序列的碱基质量并将结果进行统计和可视化,以便于评价序列质量和分析序列过滤有无效果。高通量测序中常用Q301/1000错误率)评价碱基质量的好坏,不同Q值的意义如下

 

1) FastQC碱基质量统计:

 上图是序列过滤前后FastQC质检的统计结果:1)Raw(原始)数据中的Read1和Read2的碱基的质量值都很高,上下游序列的所有碱基质量的中位数(蓝色线)均在Q30以上;2)Read2的末端个别碱基的质量波动较大,但是经过滤所有碱基都能达到很高的质量水平。

2) 过滤前后序列统计信息

 上图是10个示例测序数据过滤前后的统计信息,由图可见:1)测序采用的PE150测序;2)所有样本的测序数据量均 > 5G,部分样本能接近10G;3)过滤后的Clean数据在95%以上;4)宿主序列占总序列的百分比不到0.2%。可见原始数据的质量还是很高的。

通过序列过滤,我们能获得更加准确、可靠的数据。拿到这样的数据,我们才能放心的进行下游的生物信息学分析和统计学分析。下期将为大家带来微生物分类鉴定的篇章。

感谢阅读~




你可能还喜欢

1 初学者如何深入解读16S rDNA扩增子测序数据,从而选择自己的分析步骤

技术贴 | 16S专题 |基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(上)

技术贴 | 16S专题 | 基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(中)

技术贴 | 16S专题 | 简单介绍如何用自己的笔记本处理高通量16S数据

16S测序全新分析流程QIIME2的介绍

6 技术贴 | 微生太宏基因组报告解读(开篇)

7 技术贴 | 宏转录组专题 | DDBJ数据库:宏转录组测序数据下载


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多