分享

基因型数据分析时先质控还是先填充?

 育种数据分析 2024-04-28 发布于河南

大家好,我是邓飞,星球内有老师问了一个问题:

做基因型数据分析时,是先质控还是基因型填充?两者顺序不一样差距大吗?

我的回答:

一般步骤:

* 1,缺失质控,样本和位点,缺失率10%

* 2,填充

* 3,maf质控

这里扩展介绍一下。

1,为何会有缺失?

测序公司经过测序给我们的数据,通常为vcf或者plink格式的数据,由于样本降解、样本与参考基因组差异大(可能片段增加或者缺失)导致snp位点缺失。

2,缺失一般怎么处理?

一般是删除缺失率大的,缺失率小的可以填充或者直接分析(直接分析的话,是随机填充)

3,如何填充?

如果之前的群体有比较大的样本量,已经自填充过了,新检测的样本可以填充上去,这种叫做:有参考群的填充。还不会基因型数据填充?来看这一篇!

如果没有参考群体,那就自填充。

4,缺失质控为何在填充之前?

因为填充都有准确率,如果缺失比较大,填充错误就比较多,所以,先删除缺失率大的位点或者样本,剩下的进行填充,就能保证填充准确性了。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多