分享

二代测序质控实战

 微生信生物 2021-01-16
  • 二代高通量测序数据质控

    • 合并fq文件质控

    • 命令拆分解释

    • 剔除序列

    • 过滤序列

    • 基于单个fq文件质控

    • 基于多个fq文件质控

    • 对命令拆分解释

    • 质控前查看序列质量

    • QIIME

    • Vsearch

    • Usearch

    • 欢迎关注 微生信生物

    • 欢迎加入微生信生物讨论群

二代高通量测序数据质控

整理:谢鹏昊

修改:文涛

质控的目的:去除低质量的序列(N碱基)

二代测序如今已经是illumina的天下了,三代目前也有被illumina统治的苗头,我们知道测序数据下机之后都会做质量评估的,为了给客户符合合同要求的数据,但是着并不意味着我们不需要做质控了,目前而言,二代测序品台下机的扩增子数据量已经达到了十万条以上,公司的交付标准许多都定为了五万条。显然这些数据量用于微生物多样性的评估是足够了,十分之一就足够了,所以我们对数据质量的要求就越来越高,之前可能在Q20就可以了,现在Q35以上都还保留有大量的高质量数据。下面就让我们使用各种质控工具进行一个演示。

常见的质控工具我们选择:

  • qiime

  • vsearch

  • usearch

质控前查看序列质量

一般公司会给出检测报告,不是太差均可分析,同时后续操作会剔除一些质量较差的序列。

QIIME

基于单个fq文件质控

split_libraries_fastq.py -i input_folder -ooutput_folder

参数设置参照:

  • -q 该命令是质量控制参数,一般是19,20更好

  • -p 质量控制要求,默认0.75,

基于多个fq文件质控

multiple_split_libraries_fastq.py -i input_folders -o output_folder --demultiplexing_method -p qiime_parameters.txt

对命令拆分解释

multiple_split_libraries_fastq.py 对多个文件执行质控

  • phred_quality_threshold: 19

-i input_folders 输入文件所在文件夹

-o output_folder

输出文件夹

-m ,--demultiplexing_method 实验设计,包括(默认为)“sampleid_by_file”按照序列名字对每一个样品进行标记

-p,--parameter_fp 参数文件位置 包括序列最小,最大长度,phred_quality_threshold (测序质量阈值,20为99%准确率)


Vsearch

合并fq文件质控

当然单个fq文件也是这个命令,这里没有用于单个质控并将全部质控文件合并的命令。所以在我们使用vsearch进行序列拼接时就将全部样品的fq文件合并了。

vsearch --fastx_filter temp/all.fq \
--fastq_stripleft X --fastq_stripright Y \
--fastq_maxee_rate 0.01 \
--fastaout temp/filtered.fa

命令拆分解释

--fastx_filter 大概是筛选序列,包含很多选项

剔除序列

  • fastq_stripleft

  • --fastq_stripright

  • --fastq_truncee

过滤序列

  • fastq_maxee

  • --fastq_maxee_rate

  • --fastq_maxlen

  • --fastq_maxns

不再详细介绍,列出网址 https://manpages./testing/vsearch/vsearch.1.en.html

temp/all.fq temp为存放文件的文件夹

all.fq 为序列拼接后将所有样品合并为一个文件,方便处理

--fastq_stripleft X 剪切序列左端长度X, 包括引物与低质量片段

--fastq_stripright Y 剪切序列右端长度Y,包括引物与低质量片段

--fastq_maxee_rate 0.01 最大错误率碱基比例阈值为1% 与 --fastx_filter连用

--fastaout 输出位置及名称

Usearch

usearch命令和vsearch类似。

# 质控
usearch -fastq_filter stripped.fq -fastq_maxee 1.0 \
-fastaout filtered.fa -relabel Filt

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多