小L生信学习日记-4丨原始数据质量如何判断？-下

我是皮卡丘 2022-04-21

展开全文

小L生信日记

嗨，大家好，我是小L

各位是不是都已经开始搬砖了？

表扬一下看到本推文的同学，都是心系学习，不能自拔。2019，SCI都是你们的！

小L接上期的内容（戳这里），直接从第六部分开始学习FastQC结果报告：

6.Per sequence GC content

（GC含量）

横轴：每条序列的平均GC含量（%）

纵轴：序列数量

解释：对所有reads的每个位置，统计GC含量。红线是实际情况，蓝线是理论分布（正态分布，均值不一定在50%，而是由平均GC含量推断的）。

图形判断：

软件判断标准：偏离理论分布的reads超过15%时，报"WARN"；偏离理论分布的reads超过30%时，报"FAIL"。
比较好的情况（如上图）是红色线条形状接近正态分布，并与蓝色线条重合。下图是一个反例：说明结果中存在大量polyA，polyT，单碱基重复序列，导致GC含量异常。

7. Per base N content

（N的比例统计）

横轴：1-150个碱基位置

纵轴：N的百分比

解释：当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生"N"。

图形判断：序列中各个位点的N含量越小越好。

软件判断标准:当任意位置的N的比例超过5%，报"WARN（黄色，！）"；当任意位置的N的比例超过20%，报"FAIL（红色，X）"。
比较好的情况是像上图一样，红色线条的纵坐标均接近于0，N的比例很小。下图是一个反例，图形之中出现鼓包，说明有一定比例的N碱基。

8.Sequence Length Distribution

（reads长度分布）

横轴：碱基数量（序列长度，sequence length）

纵轴：序列数量

解释：在理论上，每次测序仪测出来的长度应该是完全相等的，但是总会有一些偏差。比如上图中，150bp是主要的，但是还是有少量的149和151bp的长度，不过数量比较少，不影响后续分析。当测序的长度严重不同时，表明测序仪在此次测序过程中产生的数据不可信。

图形判断：当reads长度不一致时警告，当有长度为0的read时不合格。像上图一样，序列长度集中于150bp就是比较好的情况。当然，不同测序平台的测序长度不同（例如，我司使用illumina平台进行mRNA测序得到的序列长度为150bp），只要实测reads长度集中于理论测序长度即可。

9. Sequence Duplication Levels

（重复序列统计）

横轴：序列重复的次数（1表示unique 的序列，2 表示有 2 条完全相同的 reads，以此类推）

纵轴：重复序列（duplicated reads）所占的百分比，以unique reads的总数作为 100%。

解释：蓝线展示所有 reads 的重复情况，红线表示在去掉重复（冗余）以后，原重复水平下的 reads 占去重后 reads 总数的百分比；

上图的情况中，以红线为例，相当于unique reads数目～20%的reads是观察到两个重复的，～7%是观察到三次重复的，依此类推。

图形判断：

软件判断标准：如果非 unique 的 reads 占总 reads 数的 20 % 以上则报 “WARN（黄色，！）”，占总 read 数的 50 % 以上则报 “FAIL（红色，X）”。
测序深度越高，越容易产生一定程度的duplication，这是正常的现象，但如果duplication的程度很高，就提示我们可能有bias的存在。一个多样性比较好的文库，大部分的 reads 都应在图的左侧 (无论红线还是蓝线)，如下图：

10.Overrepresented sequences

（一条序列的重复数）

正常文库内序列的多样性水平很高，不会有同一条 read 大量出现的情况。如果有某个序列大量出现，就叫做over-represented。fastQC的标准是占全部reads的0.1%以上。如果均在0.1%以下，则显示No Overrepresented sequences。

图形判断：如果有任何 read 出现的比例超过总 reads 数的 0.1 % 则报 WARN（黄色，！），超过总 reads 数的 1 % 则报“FAIL（红色，X）”。

11.Adapter Content（接头含量）

横轴：序列上每个位置的碱基

纵轴：含有接头（adapter）的序列占所有序列的比例

解释：此图衡量的是序列中两端adapter的情况，并显示可能的来源（用不同的颜色标注）

图形判断：

软件判断标准：含有adapter的reads超过所有reads的5%时报“WARN（黄色，！）”，超过10%报“FAIL（红色，X）”。
正常的情况下接头的含量应该接近0，像上图就是比较好的情况。下图是一个反例：约80bp处，曲线逐渐升高，接头含量增加。

以上就是fastQC结果报告的全部内容了！

报告如何看，小L已经学会了。但紧接着，小L发现了一个问题，上面的11个参数中，常会出现不合格的情况（“WARN” or “FAIL”），这种情况下，该怎么办呢？能不能继续分析呢？

小L请教了金特达基因生信开发部的小哥哥，以下是他的回答原文：

质检结果没有全部通过怎么办，能进行后续分析吗？
原始测序数据经过fastqc质检后，很少有全部通过的情况，一般都会出现一些warning，因此没有全部通过并不意味着不能进行后续分析。但是前提条件是几个关键参数不能太差，根据经验，一般需要重点关注的主要是 'Per base sequence quality'、'Per base sequence content'和'Adapter Content'。

其中，如果'Per base sequence quality' 太差的话，说明数据的质量远没有达到符合要求的Q30或着Q20的比例，这样测到的reads很多碱基是不可信的，对下游的分析结果影响比较大。

如果'Per base sequence content'参数的结果中出现很大异常的话(比如碱基G的曲线出现明显的波动)，很可能提示原始下机数据中出现了很大比例的重复read，这些重复的reads虽然本身的测序质量可能没有问题，但是有可能导致最终可用于分析的clean reads 大大减少，需要引起注意。

如果'Adapter Content'参数曲线中，出现很大比例的adapter（接头）序列的话，一般需要先根据接头序列先去掉接头序列再进行分析的。否则可能会影响后续的比对分析结果。
那么，应该重点关注哪几个质检参数？
根据1的阐述，一般需要重点关注的几个参数是：'Per base sequence quality'、'Per base sequence content'和'Adapter Content'。

总的来说，QC的结果的评判还需要结合具体的项目，测序平台以及分析目的这些因素，不同的因素导致的判断也是不同的。比如是RNA-seq 还是DNA-seq ,是否是捕获测序，是否是酶切后测序，是否是多重PCR测序等等。