高通量测序数据下机后得到了fastq的raw_data,通常测序公司在将数据返还给客户之前会做“clean”处理,即得到clean_data。然而,这些clean_data是否真的“clean”呢? Usage: fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE] #去掉接头序列 [-a ADAPTER] =接头序列(默认为CCTTAAGG) [-l N] = 忽略那些碱基数目少于N的reads,默认为5 [-d N] = 保留接头序列后的N个碱基默认 -d 0 [-c] = 放弃那些没有接头的序列. [-C] = 只保留没有接头的序列. [-k] = 报告只有接头的序列. [-n] = 保留有N多序列,默认不保留 [-v] =详细-报告序列编号 [-z] =压缩输出. [-D] = 输出调试结果. [-M N] =要求最小能匹配到接头的长度N,如果和接头匹配的长度小于N不修剪 [-i INFILE] = 输入文件 [-o OUTFILE] = 输出文件 Example: fastx_clipper -a AGATCGGAAGAGCACACG -l 25 -d 0 -Q 33 -i SRR306394_1.fastq -o SRR306394_1_trimmed.fastq
[-q N] = 最小的需要留下的质量值 [-p N] = 每个reads中最少有百分之多少的碱基需要有-q的质量值 [-z] =压缩输出 [-v] =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR Example: fastq_quality_filter -q 20 -p 80 -Q 33 -i SRR306394_1.fastq -o SRR306394_1_filtered.fastq http://blog.sciencenet.cn/blog-1509670-914439.html |
|
来自: Hobart_joe > 《测序》