分享

FastqC结果简介

 生物_医药_科研 2019-01-10
拿到原始数据后我们采用fastqC程序进行质控,看原始数据质量情况,fastqC会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求,fastqC总结结果如下:
这里写图片描述
FastqC有3种结果:绿色代表PASS;黄色代表WARN;红色代表FAIL。当出现黄色时说明需要查看结果。
Basic statistics是该fastq一些基本信息,主要有
这里写图片描述
Filename:文件名
File type: 文件类型
Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用
Total Sequences: 输入文本的reads的数量
Sequence length: 测序长度
%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。
这里写图片描述
横轴为read长度,纵轴为质量得分,Q = -10*log10(error P)。
柱状表示该位置所有序列的测序质量的统计,柱状是25%~75%区间质量分布,error bar是10%~90%区间质量分布,蓝线表示平均数。一般要求所有位置的10%分位数大于20,即大于最多允许该位置10%的序列低于Q20。当任何碱基质量低于10,或者任何中位数低于25报WARN,需注意;当任何碱基质量低于5或者任何中位数低于20报FAIL。
这里写图片描述
每个tail测序情况,横轴表示碱基位置,纵轴表示tail的index编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。
这里写图片描述
横轴表示Q值,纵轴表示每个值对应的read数目,当测序结果主要集中在高分中,证明测序质量良好。
这里写图片描述
横轴为碱基长度分布,纵轴表示百分比,图中4条线分别代表A,C,T,G在每个位置上的平均含量。由于测序平台及测序长度不同,以及测序仪开始状态不稳定经常出现前后波动情况。
这里写图片描述
横轴表示GC含量,纵轴表示不同GC含量对应的read数,蓝色为程序根据经验分布给出的理论值,红色是真实值,当红色出现双峰是表示混入了其他DNA序列。。
这里写图片描述
当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。
这里写图片描述
理论上每次测序仪测出的read长度时一致的,但是由于建库等因素通常会导致一些小片段,如果报FAIL,表明此次测序过程中产生的数据不可信。
这里写图片描述
统计序列完全一致的reads的频率,横轴表示重复的次数,纵轴表示重复的reads的数目。一般测序深度越高,越容易产生一定程度的重复序列。
这里写图片描述
当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。
这里写图片描述
横轴表示碱基位置,纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。若有adapter残留,后续必须去接头。
这里写图片描述
重复短序列出现的次数,出现上图这种情况的原因要么是序列本身重复度高,比如建库PCR的时候出现了Bias。或者adapter没有除干净。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多