分享

详解GATK突变硬过滤 | 群体遗传专题

 祥强6csdm0n3vs 2020-07-22

对于联川的重测序组来说,每天都会和许许多多的SNP打交道(什么是SNP?),经手处理过的SNP位点何止上亿。而在他们手中,GATK(Genome analysis toolkit)是一柄锋利无比的雕刻刀,原始数据经过GATK的处理之后才能去伪存真,显出本色,进入后续的挖掘过程。

GATK(不是GANK也不是GTA!)这款软件是变异检测的常用软件,但是它不仅可以从比对信息中挖掘出大量的SNP和INDEL,还可以对挖掘出的变异进行质量检测和过滤。因为从比对信息中挖掘变异数据,就好像考古发掘的过程,最初的挖掘结果难免会真假混杂,泥沙俱下,如何对它们进行质量判断,从而为下游分析呈现出最好的数据便成了重中之重。

对于每一个SNP或者INDEL位点,GATK都会在鉴定出的同时给它们加上不同的质量标签,同时GATK官方也会推荐质量值过滤的标准。例如推荐的SNP过滤标准如下:

QD > 2.0

FS > 60.0

MQ > 40.0

MQRankSum > -12.5

ReadPosRankSum > -8.0

SOR > 3.0

不过光看这个,我们可能很难理解这些缩写背后究竟代表什么含义,下面我们就来具体看一下:

Qual:即quality质量值,以Phred格式存储,这个值越大,代表这里存在variant的可能性越高(计算方法与测序质量值Q20/Q30等类似)。

QD:QualByDepth,即经过深度校正的质量值,是使用Qual值除以位点过滤前的深度。因为Qual值会和深度成正相关关系,QD可以消除测序深度的影响,判断位点的真实质量值。

FS:FisherStrand,即经过fisher精确检验判断当前变异是否存在链特异的倾向。

MQ:RMSMappingQuality,所有比对reads比对质量的均方根,用来判断一个位点平均的比对质量。

MQRankSum:MappingQualityRankSumTest,对杂合位点进行的不同碱基之间比对质量的曼惠特尼秩和检验结果,通过ref和alt碱基的比对质量差异来评估位点的可信度。

ReadPosRankSum:ReadPosRankSumTest,仍然是对杂合位点进行的秩和检验,看不同的碱基是否倾向于出现在reads上的特定位置(例如接近reads的起始或者终止)。

SOR:StrandOddsRatio,使用OR值来判断变异位点链特异的程度,值越大链特异程度越高。

 通过以上的指标进行过滤之后,我们就基本可以得到一个统计学上可信的变异数据集。如果是群体重测序数据,我们后续可以再进行MAF、变异完整度等指标的过滤,即可进行高质量的群体结构分析。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多