分享

都是VCF数据,什么才是高质量的VCF?

 生物_医药_科研 2019-07-31

写在前面

EGIS系统,自7月初正式推出以来,收到了很多老师的青睐。生信的全自动化、解读的高效与智能化,让很多老师对遗传数据的解读有了新的想法。当然,我们在服务的过程中,也发现一个问题,就是大家手上拿到的VCF数据,真的是各种各种。

因此,本期内容我们想专门介绍一下,如何得到高质量的VCF数据。限于篇幅,本期重点介绍一下VCF文件在生成过程中经历的两步重要处理,gVCF与变异过滤。

文末有惊喜哦~

gVCF与变异过滤

如何得到更准确的变异数据

      gVCF      

很多做遗传分析的朋友可能对gVCF文件比较陌生

因为遗传分析时拿到的是VCF文件

而gVCF文件,可能只是听过却没有实际见过

那么,

为什么最终得到的变异文件没有gVCF文件呢?

gVCF文件在分析过程中又有什么作用呢?

1

gVCF是什么

gVCF其实也是一种VCF文件

和通常见到的VCF不同的是

gVCF文件中包括了测序中的所有序列信息

变异序列的信息,如snp和indel等

与参考基因组序列一致的测序信息

(测序覆盖但未出现变异)

而最终的VCF只有变异序列的信息

gVCF通常由HaplotypeCaller分析得到

如上图右边蓝色部分中所示

测序覆盖但未发生变异

通过Cohort分析后

转化为通常见到的VCF文件

通常的VCF文件(左)和gVCF文件(右)的区别

HaplotypeCaller分析流程之前有专门写到,感兴趣可以点击图片阅读。

2

gVCF的作用

上文提到

gVCF通过Cohort分析后变为常规的VCF文件

那么Cohort分析的过程又是什么样的呢

其实理解Cohort的分析原理并不难

所谓Cohort分析,就是集中多个样本的测序数据

通过人群变异信息来增加个体变异的可信度

Cohort分析时,将多个样本的测序结果合并

包括所有变异及非变异但测序覆盖的数据

将人群变异信息合并分析的好处是

当某样本的某个变异的测序质量较差时

可以通过人群变异信息提供参考

简单的说就是

变异可信度 = 变异自身质量 + 人群变异信息

当测序质量高时,变异可信度由自身决定

当测序质量低时,人群变异数据便提供参考信息

左图为覆盖度较差的位点

单个样本对杂合子判断能力有限

右图为人群变异数据

为某样本覆盖度差的区域提供变异信息支持

当人群数据积累后

人群中的等位基因的数量为变异提供证据支持

Cohort数据可以通过不断积累

形成越来越准确的人群变异数据

Cohort分析详细介绍,点击图片阅读

     变异过滤    

经过Cohort分析后

VCF数据的质量有了显著提高

但对于人群数据无法提供信息的变异

需要通过另一步分析来评价其质量

这一步分析就是VQSR

Variant Quality Score Recalibration

也就是变异质量校正

其本质是

通过VCF中认为可信的变异

训练一个统计学习模型

然后通过训练的模型来预测所有变异的质量

这个模型叫做GMM,即

高斯混合模型

模型的原理很好理解

通过推测高可信变异数据的质量分布

高可信变异数据通常选为1kg,dpSNP或HapMap数据

给所有变异赋予相应的概率值

概率越大表示越接近可信变异

如图所示

左边部分为模型训练的分布

绿色越深表示和高质量变异越接近

右边为模型预测的结果

与所有统计模型一样

VQSR也需要注意过滤参数的设定

提高召回率也意味着精度的下降

VQSR详细介绍,点击图片阅读

小结

gVCF和变异过滤

本质上都是通过统计学习的方法

来提高最终VCF的数据质量

但要注意的是统计学习本身的局限性

例如Cohort分析时需要注意

人群样本与分析样本的背景一致性

VQSR需要注意

训练数据的选取和训练参数的选择

以避免错误的参考数据造成分析质量下降

参考资料:

gVCF相关:https://software./gatk/documentation/article?id=11004

变异过滤相关:

VQSR:https://software./gatk/documentation/article?id=11084

高斯混合模型 :

https://baike.baidu.com/item/高斯混合模型

VQSR训练数据说明:

https://software./gatk/documentation/article?id=1259

惊喜惊喜来啦!

★本期互动★

留言区说说你对VCF数据的感想,我们会随机选取1名小伙伴送出豌豆sir的#生而不凡#日历手帐一本。

(此手账由瀚垚生物医学支持遗传病公益事业购买。)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多