GWAS的基因型填充是怎么回事？

yjt2004us 2017-10-14

展开全文

基因型填充（genotype imputation）是全基因组关联分析（genome-wide association study， GWAS）中的重要工具，通过这项技术可以精确地预测没有被芯片设计所覆盖的多态性位点的基因型，使得更多的遗传位点应用到关联分析中，从而提高发现新的致病基因的可能性。

基因型填充需要由高密度SNP构成的单体型（haplotypes）作参考模板。

随着千人基因组计划的完成，超过7千万的多态性位点被发现，由此构建了一张丰富的人类遗传单体型图谱，为基因型填充提供了有力依据。借助高性能计算的快速发展，越来越多的研究人员选择利用基因型填充对芯片产生的基因型数据进行imputation，进而增加GWAS和fine-mapping的效能。

本文接下来向大家介绍基因型填充的原理和其在关联分析中的应用。

基因型填充的基本原理

基因型填充的最初构想基于家系样本的遗传特性。具有已知亲缘关系的个体之间具有共享的单体型（haplotype），这些由有限个遗传标记所构成的单体型随祖先一起遗传，反映连锁不平衡。

因此，在具有相同单体型的家系中，遗传标记少的样本可以参照遗传标记多的样本进行基因型填充。

对于没有亲缘关系的样本，以上理论也基本适用，主要的差别在于无血缘关系的样本之间共享的单体型比家系样本之间的要短很多。

对无亲缘关系样本进行基因型填充需要一个高密度遗传标记构成的单体型图谱作为参照。通过对比待填充样本和参考模板，找到两者之间共有的单体型，然后就可以将匹配上的参考模板中的位点复制到目标数据集中。

然而，不是所有的单体型配对都准确一致。当无法准确断定哪一个单体型应该被填充，通常的做法是给出不同单体型出现的概率，并估算不确定性。

图1 简要地描绘了非家系样本的基因型填充过程。

图1：无明显亲缘关系样本的基因体填充简化图。A输入待研究目标样本和参考模板，B在目标样本和参考模板之间构建单体型（pre-phasing），C根据目标样本和参考模板之间共享的单体型进行基因型填充

基因型填充的常用软件

目前,随着计算生物学和生物信息学的发展,有很多算法和软件都有能力完成基因型填充的任务。

这些方法基本可以分为两大类：

（i）计算密集型,比如IMPUTE、 IMPUTE2、MACH、和fastPHASE/BIMBAM。这种类型的方法在填充的过程中充分考虑到全部可以观察到的基因型信息，使得对缺失值的估算更加精确；

（ii）计算高效型，比如PLINK、TUNA、WHAP和BEAGLE。此种算法仅仅关注与特定位点相邻的一小部分标记的基因型，因此在计算上更加快捷。表1列出了4种常见的基因型填充软件的特性。

基因型填充的应用

虽然近年来随着新一代测序技术的快速发展，成本快速下降，但对大量样本进行全基因组测序以及后期对序列数据进行处理仍然费时费力。因此，先利用基因芯片检测并随后借助基因型填充的策略仍然是一个不错的选择。

这种方法在以下4个方面具有优势：

（1）提高检验效能。

相对于仅仅使用芯片上现有的数据,利用基因型填充进行全基因组关联分析可以提高10%的检验效能。不难想象，关联分析所包含的变异位点越多，检测到显著SNP的可能性就越大，所能解释的遗传力(Heritability)也越大；

（2）使Fine-mapping分析成为可能。

对感兴趣基因组区域进行基因型填充，可以得到该区段内高分辨率的遗传变异位点信息，大大提高了发现真正的易感SNP的可能性；

（3）为GWAS-Meta分析提供基础。

由于不同的GWAS研究往往会根据自己的样本特征设计专属的芯片，来自不同平台的芯片含有特定的SNP，导致同一表型的多个不同研究之间无法具有统一的SNP集合，使Meta分析变得困难。

对不同的基因芯片数据采用相同的参考模板进行基因型填充，就可以使每一个研究都获得一个相对统一的SNP集合；

（4）产生除了单核苷酸之外的其它变异。

如果用基于测序方法产生的1000 Genome 作参考模板，就很容易的获得例如拷贝数变异、插入或缺失等类型的突变。在全基因组关联分析中，这种类型的变异也越来越多得受到关注。

以上4个优势，也正是基因型填充被广泛使用的4个方面。

参考文献

Marchini, J. and B. Howie, Genotype imputation for genome-wide association studies. Nat Rev Genet, 2010. 11(7): p. 499-511.

Genomes Project, C., et al., An integrated map of genetic variation from 1,092 human genomes. Nature, 2012.

Van Leeuwen, E.M., et al., Population-specific genotype imputations using minimac or IMPUTE2. Nat Protoc, 2015. 10(9): p. 1285-96.