详解GATK突变硬过滤 | 群体遗传专题

祥强6csdm0n3vs 2020-07-22

展开全文

对于联川的重测序组来说，每天都会和许许多多的SNP打交道（什么是SNP？），经手处理过的SNP位点何止上亿。而在他们手中，GATK（Genome analysis toolkit）是一柄锋利无比的雕刻刀，原始数据经过GATK的处理之后才能去伪存真，显出本色，进入后续的挖掘过程。

GATK（不是GANK也不是GTA！）这款软件是变异检测的常用软件，但是它不仅可以从比对信息中挖掘出大量的SNP和INDEL，还可以对挖掘出的变异进行质量检测和过滤。因为从比对信息中挖掘变异数据，就好像考古发掘的过程，最初的挖掘结果难免会真假混杂，泥沙俱下，如何对它们进行质量判断，从而为下游分析呈现出最好的数据便成了重中之重。

对于每一个SNP或者INDEL位点，GATK都会在鉴定出的同时给它们加上不同的质量标签，同时GATK官方也会推荐质量值过滤的标准。例如推荐的SNP过滤标准如下：

QD > 2.0

FS > 60.0

MQ > 40.0

MQRankSum > -12.5

ReadPosRankSum > -8.0

SOR > 3.0

不过光看这个，我们可能很难理解这些缩写背后究竟代表什么含义，下面我们就来具体看一下：

Qual：即quality质量值，以Phred格式存储，这个值越大，代表这里存在variant的可能性越高（计算方法与测序质量值Q20/Q30等类似）。

QD：QualByDepth，即经过深度校正的质量值，是使用Qual值除以位点过滤前的深度。因为Qual值会和深度成正相关关系，QD可以消除测序深度的影响，判断位点的真实质量值。

FS：FisherStrand，即经过fisher精确检验判断当前变异是否存在链特异的倾向。

MQ：RMSMappingQuality，所有比对reads比对质量的均方根，用来判断一个位点平均的比对质量。

MQRankSum：MappingQualityRankSumTest，对杂合位点进行的不同碱基之间比对质量的曼惠特尼秩和检验结果，通过ref和alt碱基的比对质量差异来评估位点的可信度。

ReadPosRankSum：ReadPosRankSumTest，仍然是对杂合位点进行的秩和检验，看不同的碱基是否倾向于出现在reads上的特定位置（例如接近reads的起始或者终止）。

SOR：StrandOddsRatio，使用OR值来判断变异位点链特异的程度，值越大链特异程度越高。

通过以上的指标进行过滤之后，我们就基本可以得到一个统计学上可信的变异数据集。如果是群体重测序数据，我们后续可以再进行MAF、变异完整度等指标的过滤，即可进行高质量的群体结构分析。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：祥强6csdm0n3vs > 《生信类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

祥强6csdm0n3vs

关注对话

TA的最新馆藏

[转] 常见活血化瘀药——王不留行
[转] 高清图解蔬菜11种致命病害！（附详细防治方法）
[转] 全基因组重测序基础及高级分析知识汇总
[转] fastp: 一款超快速全功能的FASTQ文件自动化质控+过滤校正预...
[转] 搞懂环状RNA（circRNA），看这篇就够了
WGCNA分析，简单全面的最新教程（在线做，但也需要懂原理）

喜欢该文的人也喜欢更多

热门阅读换一换