fastq数据质量控制(质控)(QC)简单说明

展开全文

最近终于进行实习了，我的第一个工作其实非常的简单，就是先去试试各种工具。

当我们拿到一个fastq数据，我们当然是要进行质量控制。

不清楚这些数据能不能给po到网络上以防万一，我先不直接po我的数据图了。

我们拿到的数据，通常都是fastq文件格式，无论是当前占有率最高的二代测序还是最有发展前途的三代测序，都是生成fastq数据。

fastq数据的格式也是非常简单，每四行表示一个测序结果(read)

第一行是测序基因的id，就是一个标号而已

第二行就是序列

第三行是注释

第四行是每个碱基的质量值。

其实这个文件里大家能够发现id和注释甚至于都是没用的，而测量序列也是已经确定的，所以没有什么可以操作的，唯一值得我们进行预处理的就是质量值。

首先要简单介绍什么是质量值以及这个质量值是怎么来的。我主要从二代测序讲，其实三代测序的质量值也是这么来的，而且更好理解。

二代测序现在主要是使用鸟枪法，就是一次性将mRNA随机打断后筛选长度比较合适的序列进行大规模的测序。

结果当然是得到大量的随机短序列的结果。之后将多个短序列进行合并，有相同部分的段序列拼接起来得到结果。

很显然这个过程肯定是有误差的，其来源一是变异(概率很低)，二是短序列有大量重复的部分，可能拼接错误，三是简并密码子的存在。

因此一个碱基位是会测出不同的结果的，这个不同结果的比例经过一定的计算就得到了质量值。

那么什么是质控？那就是有一些碱基位的质量值很低，那么很显然这个碱基位的错误的可能就很大，那么在有一些对于准确率要求高的流程里就要去除这些低质量的序列。

此时有两种质控的方法：

一种是去除质量低的碱基，一种是去除质量低的read。

这里其实是要大家注意的，尤其是在双端测序的结果上，我们应该采用后者而不是前者，因为前者的直接结果就是会导致我们无法进行merge。

特别是质量普遍不高的结果上，会导致双端测序最后merge的时候匹配不到应该匹配的序列而无法merge上，这样的话我们的数据就被损坏了。另外因为双端测序其实有一个再校验的过程。merge的时候会将两个序列的质量值进行校验，提高数据的可信度。所以我们实在没必要进行过分的质控。

至于质控的软件那就有很多选择了，Trimmomatic以及fastp是两个比较火的工具，我目前比较推荐fastp，当然我还没有经过大量的验证，只能说目前比较推荐fastp。