大家好,我是邓飞,星球内有老师问了一个问题: 做基因型数据分析时,是先质控还是基因型填充?两者顺序不一样差距大吗? 我的回答:
这里扩展介绍一下。 1,为何会有缺失? 测序公司经过测序给我们的数据,通常为vcf或者plink格式的数据,由于样本降解、样本与参考基因组差异大(可能片段增加或者缺失)导致snp位点缺失。 2,缺失一般怎么处理? 一般是删除缺失率大的,缺失率小的可以填充或者直接分析(直接分析的话,是随机填充) 3,如何填充? 如果之前的群体有比较大的样本量,已经自填充过了,新检测的样本可以填充上去,这种叫做:有参考群的填充。还不会基因型数据填充?来看这一篇! 如果没有参考群体,那就自填充。 4,缺失质控为何在填充之前? 因为填充都有准确率,如果缺失比较大,填充错误就比较多,所以,先删除缺失率大的位点或者样本,剩下的进行填充,就能保证填充准确性了。 |
|