【原】二代测序质控实战

微生信生物 2021-01-16

展开全文

二代高通量测序数据质控

合并fq文件质控
命令拆分解释
剔除序列
过滤序列
基于单个fq文件质控
基于多个fq文件质控
对命令拆分解释
质控前查看序列质量
QIIME
Vsearch
Usearch
欢迎关注微生信生物
欢迎加入微生信生物讨论群

二代高通量测序数据质控

整理：谢鹏昊

修改：文涛

质控的目的：去除低质量的序列（N碱基）

二代测序如今已经是illumina的天下了，三代目前也有被illumina统治的苗头，我们知道测序数据下机之后都会做质量评估的，为了给客户符合合同要求的数据，但是着并不意味着我们不需要做质控了，目前而言，二代测序品台下机的扩增子数据量已经达到了十万条以上，公司的交付标准许多都定为了五万条。显然这些数据量用于微生物多样性的评估是足够了，十分之一就足够了，所以我们对数据质量的要求就越来越高，之前可能在Q20就可以了，现在Q35以上都还保留有大量的高质量数据。下面就让我们使用各种质控工具进行一个演示。

常见的质控工具我们选择：

qiime
vsearch
usearch

质控前查看序列质量

一般公司会给出检测报告，不是太差均可分析，同时后续操作会剔除一些质量较差的序列。

QIIME

基于单个fq文件质控

split_libraries_fastq.py -i input_folder -ooutput_folder

参数设置参照：

-q 该命令是质量控制参数，一般是19，20更好
-p 质量控制要求，默认0.75，

基于多个fq文件质控

multiple_split_libraries_fastq.py -i input_folders -o output_folder --demultiplexing_method -p qiime_parameters.txt

对命令拆分解释

multiple_split_libraries_fastq.py 对多个文件执行质控

phred_quality_threshold: 19

-i input_folders 输入文件所在文件夹

-o output_folder

输出文件夹

-m ,--demultiplexing_method 实验设计，包括（默认为）“sampleid_by_file”按照序列名字对每一个样品进行标记

-p,--parameter_fp 参数文件位置包括序列最小，最大长度，phred_quality_threshold （测序质量阈值，20为99%准确率）

Vsearch

合并fq文件质控

当然单个fq文件也是这个命令，这里没有用于单个质控并将全部质控文件合并的命令。所以在我们使用vsearch进行序列拼接时就将全部样品的fq文件合并了。

vsearch --fastx_filter temp/all.fq \
      --fastq_stripleft X --fastq_stripright Y \
      --fastq_maxee_rate 0.01 \
      --fastaout temp/filtered.fa

命令拆分解释

--fastx_filter 大概是筛选序列，包含很多选项

剔除序列

fastq_stripleft
--fastq_stripright
--fastq_truncee

过滤序列

fastq_maxee
--fastq_maxee_rate
--fastq_maxlen
--fastq_maxns

不再详细介绍，列出网址 https://manpages./testing/vsearch/vsearch.1.en.html

temp/all.fq temp为存放文件的文件夹

all.fq 为序列拼接后将所有样品合并为一个文件，方便处理

--fastq_stripleft X 剪切序列左端长度X，包括引物与低质量片段

--fastq_stripright Y 剪切序列右端长度Y,包括引物与低质量片段

--fastq_maxee_rate 0.01 最大错误率碱基比例阈值为1% 与 --fastx_filter连用

--fastaout 输出位置及名称

Usearch

usearch命令和vsearch类似。

# 质控
usearch -fastq_filter stripped.fq -fastq_maxee 1.0 \
  -fastaout filtered.fa -relabel Filt

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：微生信生物 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

微生信生物

关注对话

TA的最新馆藏

高强度人类活动背景下微生物对环境变化的抗性和恢复力
ggCLusterNet更新-模块相似性与模块互联
土壤中微生物对养分获取的相互作用：矿工、清道夫和载体
微生物的抗旱性可能会破坏土壤碳的稳定性
农田土壤细菌群落：分类和功能
微生物组多组学网络分析：统计考虑因素、局限性和机遇（下）

喜欢该文的人也喜欢更多

热门阅读换一换