FASTQC结果解读 | miRNA专栏

生物_医药_科研 2019-05-28

展开全文

FASTQC结果解读

为保证下游分析输入数据的可靠性，需要对下机的原始测序数据进行质控。通常我们会使用FASTQC软件对测序数据进行质控。fastqC会生成一个html的结果报告，下面是软件对质控结果进行判断：绿色代表PASS；黄色代表WARN；红色代表FAIL（当出现黄色时说明需要查看结果）。

1. Basic Statics：基本统计信

Filename:文件名

File type: 文件类型

Encoding：测序平台的版本和相应的编码版本号

Total Sequences: total reads的数量

Sequence length: 测序长度

%GC: GC含量，表示整体序列的GC含量，由于二代测序GC偏好性高，且深度越高，GC含量会越高。

2. Per base sequence quality：序列测序质量统计

碱基质量分数与错误率是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。

横轴是测序序列的第一个碱基到第90个碱基（read长度），纵轴是质量得分。红线表示中位数，黄色是25%-75%区间，误差线是10%-90%区间，蓝线是平均值。

任何碱基质量低于10或是任何中位数低于25，报“WARN”；任何碱基质量低于5，或是任何中位数低于20，报“FAIL”。

Q = -10*log10（error P） P为测错的概率，Q20表示1%的错误率，Q30表示0.1%的错误率。

3. Per sequence quality scores：序列的测序质量

用来查看碱基质量是否存在普遍过低的情况。

横轴为序列平均碱基质量值，纵坐标为序列的数量。

绝大部分碱基序列的平均质量值的峰值大于30，可判断序列质量较好，在质量较低的坐标位置出现另一个或多个峰，说明测序数据中有一部分序列质量较差，当峰值小于27（错误率0.2%）时报'WARN'，当峰值小于20（错误率1%）时报'FAIL'。

4. Per base sequence content：序列碱基含量

统计在序列中的每一个位置，四种不同碱基占总碱基数的比例，检测有无AT、GC分离的现象。横轴为位置，纵轴为百分比。

正常情况下四种碱基出现的频率应是接近的，且没有位置差异，因此好的样品中四条线应该是平行且接近的，由于刚开始测序仪状态不稳定，造成前几个碱基有波动。在 reads 开头出现碱基组成偏离往往是我们的建库操作造成的，比如建 GBS 文库时在 reads 开头加了 barcode；barcode 的碱基组成不是均一的，酶切位点的碱基组成是固定不变的，这样会造成明显的碱基组成偏离；在 reads 结尾出现的碱基组成偏离，往往是测序接头的污染造成的。

当所有位置的碱基比例一致现出偏差时，即四条线平行且分开，代表文库有偏差，或测序中的系统误差；当部分位置碱基的比例出现偏差时，即四条线在某些位置纷乱交织，则有overrepresented sequence的污染。

当任一位置的A/T比例与G/C比例相差超过10%，报'WARN'；当任一位置的A/T比例与G/C比例相差超过20%，报'FAIL'。

5. Per base GC content：GC含量统计

对所有reads的每个位置统计GC含量，反映样品的GC含量，如果建库足够均匀，reads的每个位置应当是没有差异的，所以GC含量的线应当平行于X轴。当部分位置GC含量出现偏差时，往往提示我们有污染；当所有位置GC含量一致出现偏差时，往往表示文库有偏差或是测序中的系统误差。

当任一位置的GC含量偏离均值的5%时，报“WARN”；当任一位置的GC含量偏离均值的10%时，报“FAIL”。

6. Per sequence GC content：reads的平均GC含量的分布

蓝线是理论分布（正态分布，通过从所测数据计算并构建理论分布），红色是实际情况，两个比较接近判为好的。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差（overrepresented reads）；形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差；如果出现两个或多个峰值，表明测序数据里可能有其他来源的DNA序列污染，或者有接头序列的二聚体污染。

偏离理论分布的reads超过15%时，报'WARN'；偏离理论分布的reads超过30%时，报'FAIL'。

7. Per base N content：统计reads每个位置N的比率

当测序仪器不能辨别某条reads的某个位置都是ATCG哪个碱基时，就会产生'N'，对所有reads的每个位置统计N的比率。

正常情况下N的比例是很小的，所以图上常看到一条直线，但放大Y轴之后会发现还是有N的存在，这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时，说明测序系统出了问题。

当任意位置的N的比例超过5%报“WARN”；当任意位置的N的比例超过20%，报“FAIL”。

8. Sequence Length Distribution：reads的长度分布

为了防止建库或者测序时有一些不规则长度的序列，也要对被测序序列进行一个长度的统计。

当reads长度不一致时报“WARN”；当长度为0的reads时报“FAIL”。

9. Sequence Duplication Levels：重复reads的次数统计

统计完全一样reads的频率，横坐标是duplication的次数，纵坐标是duplicated reads的数目，以unique reads的总数作为100%。上图的情况中，相当于unique reads数目的18%的reads是观察到两个重复的，大约5%是观察到三次重复的，依此类推。

测序深度越高，越容易产生一定程度的重复，但重复程度很高，可能是有偏差的存在。Fastqc中用测序数据的前200000条reads统计其在全部数据中的重复情况。重复数目≥10的reads被合并统计，这也是为什么上图的最右侧略有上扬。>75bp的reads只取50bp进行比较。但由于reads越长越不容易完全相同（由测序错误导致），所以其重复程度仍有可能被低估。

当非unique的reads占总数的比例>20%时报“WARN”；当非unique的reads占总数的比例>50%时报“FAIL”。

10. Overrepresented sequences：过多的重复序列

如果有某个序列大量出现，就叫做over-represented，Fastqc的标准是占全部reads的0.1%以上，为计算方便只取测序数据前200000条reads进行统计，所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在运行时加入-c contaminant file，出现的over-represented sequence会从contaminant file里面找匹配的hit（至少20bp且最多一个mismatch）。

发现超总数0.1%的reads报“WARN”；超过总数1%的reads时报“FAIL”。

11. Kmer Content：Kmer含量

Kmer：将一条reads连续切割，挨个碱基滑动，得到的一组序列长度为k的核苷酸序列。

例：read序列为：ACT GGT GCT AAT GAC GAT。采用7-mer分析

结果为：

ACT GGT G

CT GGT GC

T GGT GCT

GGT GCT A

第一行以reads第一个碱基为起点，第二行以reads第二个碱基为起点，以此类推。每行的长度都是7。

如果某k个bp的短序列在reads中大量出现，其频率高于统计期望的话（出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer），fastqc将其记为over-represented k-mer，通常可以在overrepresented sequences图中找到，并查看它的来源。

如果任何k-mer的p值<0.01时报“WARN”；p值<10-5时报“FAIL”。