二代高通量测序数据质控整理:谢鹏昊 修改:文涛 质控的目的:去除低质量的序列(N碱基) 二代测序如今已经是illumina的天下了,三代目前也有被illumina统治的苗头,我们知道测序数据下机之后都会做质量评估的,为了给客户符合合同要求的数据,但是着并不意味着我们不需要做质控了,目前而言,二代测序品台下机的扩增子数据量已经达到了十万条以上,公司的交付标准许多都定为了五万条。显然这些数据量用于微生物多样性的评估是足够了,十分之一就足够了,所以我们对数据质量的要求就越来越高,之前可能在Q20就可以了,现在Q35以上都还保留有大量的高质量数据。下面就让我们使用各种质控工具进行一个演示。 常见的质控工具我们选择:
质控前查看序列质量一般公司会给出检测报告,不是太差均可分析,同时后续操作会剔除一些质量较差的序列。 QIIME基于单个fq文件质控split_libraries_fastq.py -i input_folder -ooutput_folder 参数设置参照:
基于多个fq文件质控multiple_split_libraries_fastq.py -i input_folders -o output_folder --demultiplexing_method -p qiime_parameters.txt 对命令拆分解释multiple_split_libraries_fastq.py 对多个文件执行质控
-i input_folders 输入文件所在文件夹 -o output_folder 输出文件夹 -m ,--demultiplexing_method 实验设计,包括(默认为)“sampleid_by_file”按照序列名字对每一个样品进行标记 -p,--parameter_fp 参数文件位置 包括序列最小,最大长度,phred_quality_threshold (测序质量阈值,20为99%准确率) Vsearch合并fq文件质控当然单个fq文件也是这个命令,这里没有用于单个质控并将全部质控文件合并的命令。所以在我们使用vsearch进行序列拼接时就将全部样品的fq文件合并了。 vsearch --fastx_filter temp/all.fq \ 命令拆分解释--fastx_filter 大概是筛选序列,包含很多选项 剔除序列
过滤序列
不再详细介绍,列出网址 https://manpages./testing/vsearch/vsearch.1.en.html temp/all.fq temp为存放文件的文件夹 all.fq 为序列拼接后将所有样品合并为一个文件,方便处理 --fastq_stripleft X 剪切序列左端长度X, 包括引物与低质量片段 --fastq_stripright Y 剪切序列右端长度Y,包括引物与低质量片段 --fastq_maxee_rate 0.01 最大错误率碱基比例阈值为1% 与 --fastx_filter连用 --fastaout 输出位置及名称 Usearchusearch命令和vsearch类似。 # 质控
|
|