发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
写在前面
EGIS系统,自7月初正式推出以来,收到了很多老师的青睐。生信的全自动化、解读的高效与智能化,让很多老师对遗传数据的解读有了新的想法。当然,我们在服务的过程中,也发现一个问题,就是大家手上拿到的VCF数据,真的是各种各种。
因此,本期内容我们想专门介绍一下,如何得到高质量的VCF数据。限于篇幅,本期重点介绍一下VCF文件在生成过程中经历的两步重要处理,gVCF与变异过滤。
文末有惊喜哦~
gVCF与变异过滤
如何得到更准确的变异数据
gVCF
很多做遗传分析的朋友可能对gVCF文件比较陌生
因为遗传分析时拿到的是VCF文件
而gVCF文件,可能只是听过却没有实际见过
那么,
为什么最终得到的变异文件没有gVCF文件呢?
gVCF文件在分析过程中又有什么作用呢?
gVCF是什么
gVCF其实也是一种VCF文件
和通常见到的VCF不同的是
gVCF文件中包括了测序中的所有序列信息
变异序列的信息,如snp和indel等
与参考基因组序列一致的测序信息
(测序覆盖但未出现变异)
而最终的VCF只有变异序列的信息
gVCF通常由HaplotypeCaller分析得到
如上图右边蓝色部分中所示
测序覆盖但未发生变异
通过Cohort分析后
转化为通常见到的VCF文件
通常的VCF文件(左)和gVCF文件(右)的区别
HaplotypeCaller分析流程之前有专门写到,感兴趣可以点击图片阅读。
2
gVCF的作用
上文提到
gVCF通过Cohort分析后变为常规的VCF文件
那么Cohort分析的过程又是什么样的呢
其实理解Cohort的分析原理并不难
所谓Cohort分析,就是集中多个样本的测序数据
通过人群变异信息来增加个体变异的可信度
Cohort分析时,将多个样本的测序结果合并
包括所有变异及非变异但测序覆盖的数据
将人群变异信息合并分析的好处是
当某样本的某个变异的测序质量较差时
可以通过人群变异信息提供参考
简单的说就是
变异可信度 = 变异自身质量 + 人群变异信息
当测序质量高时,变异可信度由自身决定
当测序质量低时,人群变异数据便提供参考信息
左图为覆盖度较差的位点
单个样本对杂合子判断能力有限
右图为人群变异数据
为某样本覆盖度差的区域提供变异信息支持
当人群数据积累后
人群中的等位基因的数量为变异提供证据支持
Cohort数据可以通过不断积累
形成越来越准确的人群变异数据
Cohort分析详细介绍,点击图片阅读
变异过滤
经过Cohort分析后
VCF数据的质量有了显著提高
但对于人群数据无法提供信息的变异
需要通过另一步分析来评价其质量
这一步分析就是VQSR
Variant Quality Score Recalibration
也就是变异质量校正
其本质是
通过VCF中认为可信的变异
训练一个统计学习模型
然后通过训练的模型来预测所有变异的质量
这个模型叫做GMM,即
高斯混合模型
模型的原理很好理解
通过推测高可信变异数据的质量分布
高可信变异数据通常选为1kg,dpSNP或HapMap数据
给所有变异赋予相应的概率值
概率越大表示越接近可信变异
如图所示
左边部分为模型训练的分布
绿色越深表示和高质量变异越接近
右边为模型预测的结果
与所有统计模型一样
VQSR也需要注意过滤参数的设定
提高召回率也意味着精度的下降
VQSR详细介绍,点击图片阅读
小结
gVCF和变异过滤
本质上都是通过统计学习的方法
来提高最终VCF的数据质量
但要注意的是统计学习本身的局限性
例如Cohort分析时需要注意
人群样本与分析样本的背景一致性
VQSR需要注意
训练数据的选取和训练参数的选择
以避免错误的参考数据造成分析质量下降
参考资料:
gVCF相关:https://software./gatk/documentation/article?id=11004
变异过滤相关:
VQSR:https://software./gatk/documentation/article?id=11084
高斯混合模型 :
https://baike.baidu.com/item/高斯混合模型
VQSR训练数据说明:
https://software./gatk/documentation/article?id=1259
惊喜惊喜来啦!
★本期互动★
留言区说说你对VCF数据的感想,我们会随机选取1名小伙伴送出豌豆sir的#生而不凡#日历手帐一本。
(此手账由瀚垚生物医学支持遗传病公益事业购买。)
来自: 生物_医药_科研 > 《待分类》
0条评论
发表
请遵守用户 评论公约
赛福基因公开课第五节《全外显子组数据分析简介》
变异质量分数是变异位点所有序列比对质量分数的均方根。WES数据分析的前处理包括对原始fastq形式的序列进行质量控制,将清理后的fastq形...
从零开始完整学习全基因组测序数据分析:第4节 构建WGS主流程
最后合并:java-jar/path/to/GenomeAnalysisTK.jar\-TCombineVariants\-R/path/to/human.fasta\--genotypemergeoptionUNSORTED\--variantsample_name.HC.1.vcf\--variantsample_name.HC.2.vcf\...
Go! WES
变异质量分数:检测到的变异是否是生物变异的可信度【变异质量分数是变异位点所有序列比对质量分数的均方根】数据分析流程第一部分:前处理流程原始fq质控。但是如何区分真正的生物学变异和系统误差的...
使用GATK合并比较多个vcf文件
使用GATK合并比较多个vcf文件。java -jar ~/biosoft/SnpEff/snpEff/snpEff.jar -i vcf GRCh37.75 $id >snpEFF_output/${sample}.snpE...
最新版针对RNA-seq数据的GATK找变异流程
最新版针对RNA-seq数据的GATK找变异流程。gatk=''''''''/home/jmzeng/biosoft/gatk/gatk-4.1.4.0/gatk...
02.GATK人种系变异最佳实践SnakeMake流程:Call变异
rule GenomicsDBImport: input: gvcfs=expand( "results/called/{s}.gvcf.gz", s=samples.index.get_level_values(0) ), intervals="path/to/captured_regions.bed" output: db=d...
GATK BQSR的意义与作用
在测序的原始数据中,本身就提供了每个碱基对应的质量值,但是GATK官方认为测序仪提供的碱基质量值,是不准确的,存在误差的。对于A,T,C...
基因变异相关序列提取工具
基因变异相关序列提取工具。在结果文件当中就包括两个和核酸序列位置有关的文件:VCF文件以及bed文件。其基本的格式一共包括: 染色体号、...
拿什么迎接你:即将到来的海量重测序数据?
拿什么迎接你:即将到来的海量重测序数据?目前,外显子捕获测序数据、GBS数据已不再新鲜。虽然很多小麦的原始测序数据会上传到NCBI等基...
微信扫码,在手机上查看选中内容