小L生信日记 嗨,大家好,我是小L 各位是不是都已经开始搬砖了? 表扬一下看到本推文的同学,都是心系学习,不能自拔。2019,SCI都是你们的! 小L接上期的内容(戳这里),直接从第六部分开始学习FastQC结果报告: 6.Per sequence GC content (GC含量) 横轴:每条序列的平均GC含量(%) 纵轴:序列数量 解释:对所有reads的每个位置,统计GC含量。红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 图形判断:
7. Per base N content (N的比例统计) 横轴:1-150个碱基位置 纵轴:N的百分比 解释:当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生"N"。 图形判断:序列中各个位点的N含量越小越好。
8.Sequence Length Distribution (reads长度分布) 横轴:碱基数量(序列长度,sequence length) 纵轴:序列数量 解释:在理论上,每次测序仪测出来的长度应该是完全相等的,但是总会有一些偏差。比如上图中,150bp是主要的,但是还是有少量的149和151bp的长度,不过数量比较少,不影响后续分析。当测序的长度严重不同时,表明测序仪在此次测序过程中产生的数据不可信。 图形判断:当reads长度不一致时警告,当有长度为0的read时不合格。像上图一样,序列长度集中于150bp就是比较好的情况。当然,不同测序平台的测序长度不同(例如,我司使用illumina平台进行mRNA测序得到的序列长度为150bp),只要实测reads长度集中于理论测序长度即可。
9. Sequence Duplication Levels (重复序列统计) 横轴:序列重复的次数(1表示unique 的序列,2 表示有 2 条完全相同的 reads,以此类推) 纵轴:重复序列(duplicated reads)所占的百分比,以unique reads的总数作为 100%。 解释:蓝线展示所有 reads 的重复情况,红线表示在去掉重复(冗余)以后,原重复水平下的 reads 占去重后 reads 总数的百分比; 上图的情况中,以红线为例,相当于unique reads数目~20%的reads是观察到两个重复的,~7%是观察到三次重 复的,依此类推。 图形判断:
10.Overrepresented sequences (一条序列的重复数) 正常文库内序列的多样性水平很高,不会有同一条 read 大量出现的情况。如果有某个序列大量出现,就叫做over-represented。fastQC的标准是占全部reads的0.1%以上。如果均在0.1%以下,则显示No Overrepresented sequences。 图形判断:如果有任何 read 出现的比例超过总 reads 数的 0.1 % 则报 WARN(黄色,!),超过总 reads 数的 1 % 则报“FAIL(红色,X)”。
11.Adapter Content(接头含量) 横轴:序列上每个位置的碱基 纵轴:含有接头(adapter)的序列占所有序列的比例 解释:此图衡量的是序列中两端adapter的情况,并显示可能的来源(用不同的颜色标注) 图形判断:
以上就是fastQC结果报告的全部内容了! 报告如何看,小L已经学会了。但紧接着,小L发现了一个问题,上面的11个参数中,常会出现不合格的情况(“WARN” or “FAIL”),这种情况下,该怎么办呢?能不能继续分析呢? 小L请教了金特达基因生信开发部的小哥哥,以下是他的回答原文:
怎么样?是不是很佩服! ▲图片来源于soogif.com 看完专业人员的解答后,深感要学习的东西还有很多啊 下期,小L要学习测序数据经过质检之后,接下来该怎么做了。 请期待~以及点赞、转发支持! 最后来个小互动,你昨天吃的汤圆是什么馅? 小L 参考: 1.https://mp.weixin.qq.com/s/z078N2ewE6T5YB4m_tnU0w 2.https://www.bioinformatics./projects/fastqc/ 3.http://www.bioinformatics./projects/fastqc/Help/3 Analysis Modules/ 转载请注明来自微信公众号“金特达基因” |
|