分享

FASTQC结果解读 | miRNA专栏

 生物_医药_科研 2019-05-28

FASTQC结果解读

为保证下游分析输入数据的可靠性,需要对下机的原始测序数据进行质控。通常我们会使用FASTQC软件对测序数据进行质控fastqC会生成一个html的结果报告,下面是软件对质控结果进行判断:绿色代表PASS;黄色代表WARN;红色代表FAIL(当出现黄色时说明需要查看结果)。

 

1. Basic Statics:基本统计信

Filename:文件名

File type: 文件类型

Encoding:测序平台的版本和相应的编码版本号

Total Sequences: total reads的数量

Sequence length: 测序长度

%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。

2. Per base sequence quality:序列测序质量统计

基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。

横轴是测序序列的第一个碱基到第90个碱基(read长度),纵轴是质量得分。红线表示中位数,黄色是25%-75%区间,误差线是10%-90%区间,蓝线是平均值。

任何碱基质量低于10或是任何中位数低于25,报“WARN”;任何碱基质量低于5,或是任何中位数低于20,报“FAIL”。

Q = -10*log10(error P) P为测错的概率,Q20表示1%的错误率,Q30表示0.1%的错误率。

3. Per sequence quality scores:序列的测序质量

用来查看碱基质量是否存在普遍过低的情况。

横轴为序列平均碱基质量值,纵坐标为序列的数量

绝大部分碱基序列的平均质量值的峰值大于30,可判断序列质量较好,在质量较低的坐标位置出现另一个或多个峰,说明测序数据中有一部分序列质量较差,当峰值小于27(错误率0.2%)时报'WARN',当峰值小于20(错误率1%)时报'FAIL'。

4. Per base sequence content:序列碱基含量

统计在序列中的每一个位置,四种不同碱基占总碱基数的比例,检测有无AT、GC分离的现象。横轴为位置,纵轴为百分比。

正常情况下四种碱基出现的频率应是接近的,且没有位置差异,因此好的样品中四条线应该是平行且接近的,由于刚开始测序仪状态不稳定,造成前几个碱基有波动。在 reads 开头出现碱基组成偏离往往是我们的建库操作造成的,比如建 GBS 文库时在 reads 开头加了 barcode;barcode 的碱基组成不是均一的,酶切位点的碱基组成是固定不变的,这样会造成明显的碱基组成偏离;在 reads 结尾出现的碱基组成偏离,往往是测序接头的污染造成的

当所有位置的碱基比例一致现出偏差时,即四条线平行且分开,代表文库有偏差,或测序中的系统误差;当部分位置碱基的比例出现偏差时,即四条线在某些位置纷乱交织,则有overrepresented sequence的污染。

当任一位置的A/T比例与G/C比例相差超过10%,报'WARN';当任一位置的A/T比例与G/C比例相差超过20%,报'FAIL'。

5. Per base GC content:GC含量统计

对所有reads的每个位置统计GC含量,反映样品的GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴。当部分位置GC含量出现偏差时,往往提示我们有污染;当所有位置GC含量一致出现偏差时,往往表示文库有偏差或是测序中的系统误差。

当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”。

6. Per sequence GC content:reads的平均GC含量的分布

蓝线是理论分布(正态分布,通过从所测数据计算并构建理论分布),红色是实际情况,两个比较接近判为好的。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。

偏离理论分布的reads超过15%时,报'WARN';偏离理论分布的reads超过30%时,报'FAIL'。

7. Per base N content:统计reads每个位置N的比率

当测序仪器不能辨别某条reads的某个位置都是ATCG哪个碱基时,就会产生'N',对所有reads的每个位置统计N的比率。

正常情况下N的比例是很小的,所以图上常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。

当任意位置的N的比例超过5%报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。

8. Sequence Length Distribution:reads的长度分布

为了防止建库或者测序时有一些不规则长度的序列,也要对被测序序列进行一个长度的统计。

当reads长度不一致时报“WARN”;当长度为0的reads时报“FAIL”。

9. Sequence Duplication Levels:重复reads的次数统计

统计完全一样reads的频率,横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。上图的情况中,相当于unique reads数目的18%的reads是观察到两个重复的,大约5%是观察到三次重复的,依此类推。

测序深度越高,越容易产生一定程度的重复,但重复程度很高,可能是有偏差的存在。Fastqc中用测序数据的前200000条reads统计其在全部数据中的重复情况。重复数目≥10的reads被合并统计,这也是为什么上图的最右侧略有上扬。>75bp的reads只取50bp进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

当非unique的reads占总数的比例>20%时报“WARN”;当非unique的reads占总数的比例>50%时报“FAIL”。

10. Overrepresented sequences:过多的重复序列

如果有某个序列大量出现,就叫做over-represented,Fastqc的标准是占全部reads的0.1%以上,为计算方便只取测序数据前200000条reads进行统计,所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在运行时加入-c contaminant file,出现的over-represented sequence会从contaminant file里面找匹配的hit(至少20bp且最多一个mismatch)。

发现超总数0.1%的reads报“WARN”;超过总数1%的reads时报“FAIL”。

11. Kmer Content:Kmer含量

Kmer:将一条reads连续切割,挨个碱基滑动,得到的一组序列长度为k的核苷酸序列。

例:read序列为:ACT GGT GCT AAT GAC GAT。采用7-mer分析

结果为:

ACT GGT G

CT GGT GC

T GGT GCT

GGT GCT A

第一行以reads第一个碱基为起点,第二行以reads第二个碱基为起点,以此类推。每行的长度都是7

如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话(出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer),fastqc将其记为over-represented k-mer,通常可以在overrepresented sequences图中找到,并查看它的来源。

如果任何k-mer的p值<0.01时报“WARN”;p值<10-5时报“FAIL”。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多