引言 遗传学的研究成功地找到了很多致病突变体,这些突变体是指染色体上的变异位点。GWAS(全基因组关联分析)试图找到染色体上的变异位点,并研究这些变异位点与疾病或其它性状的关联。 GWAS常用的方法是回归分析。回归分析的一个假设是,数据是独立分布的(identically and independently distributed (i.i.d.))。实际上,很多个体可能有远缘关系,个体间的这种亲缘关系会给关联分析带来困难。当个体间存在亲缘关系的时候,会导致关联分析出现假阳性的结果。 现在有不同的计算方法在回归分析中考虑群体结构的影响,这篇小文探索了关联分析中假阳性的来源。 常规GWAS 关联分析的目标是寻找snp和性状之间的关系。Fig 1a中显示某个snp位点和血压的关系,可以看到红色标示出的C位点与高血压有明显的关系。 为了研究某个snp位点与某个性状的关联在统计上是否显著,我们有两个假设。第一个假设是H0假设,该假设也被称为null hypothesis,它认为snp和性状没有关联,也即是说,性状y等于总体平均与环境因素的加和。如果没有其它的信息,我们认为H0假设是正确的,也就是说某个snp并不影响性状,如Fig 1b所示。
第二个假设是H1假设,该假设认为snp和性状存在关系,也就是说当存在某个snp的时候,某个性状或某个疾病会倾向于发生在该个体身上。如Fig 1c所示,该公式中的β是指该snp对性状影响的大小,也就是说, β越大,该snp对性状的影响越大,在文献中经常把 β 称作effect size。如果H1假设中的拟合达到一定的程度,就可以说snp与性状之间存在显著性的关系。 某个个体的基因型可以用0或1或2来表示,0代表该snp位点没有出现变异,1代表该位点有一个变异,2代表该位点有两个变异。为了减少关联分析中的复杂度,需要对基因型做一个归一化的转换。归一化后的基因型如Fig 2所示。该公式中的pk是指某个变异的平均频率。 Fig 2. 我们需要拟合的公式如Fig 3所示。
其中环境因素是一个随机变量,它的分布如Fig 4中所示。 Fig 4. 根据观测到的数据,我们可以计算如下的量:
这些公式看起来比较简单,部分原因是我们用了归一化的基因型。 下一步就是检验每个snp与表型的关系是否具有统计学上的显著性,用到的公式是Fig 6:
准确基因模型 在上边的讨论中,我们用到了Fig 7中的(1)式,但实际上,表型数据是由(2)式产生的。在(2)式中多出的项称为unmodelled factor,这个因子是假阳性的来源。
一个例子:群体结构影响关联分析 实验材料:classical inbred laboratory mouse vs wild-derived strains,前者来源于宠物鼠,后者是从自然界捕获的鼠,这两类鼠的进化树如Fig 8所示,可以看到野生的鼠形成一个population,宠物鼠形成一个population.
实验数据:鼠的体重,如Fig 9所示。
实验结果:如果我们用常规线性模型来拟合数据,结果如Fig 10所示.
10a是每个snp位点计算的p值,然后取对数后进行作图,10b和10c是用另外一种方式对数据进行显示。这两个图的基本思路是:在我们的H0假设中,snp位点与表型是没有关系的,在这个假设下所有位点的p值会有一个分布,但是实际上我们通过回归分析会得到另一个分布,10b和10c就是计算这两个分布是否一致,如果这两个分布一致,那么图中的两条直线就会重合,如果不一致,那么这两条线就会出现分离。 数据分析:Fig 10中的数据一看就有问题,不可能有这么多的snp,那么问题出在哪里呢?Fig 11中的小点代表snp,大点代表体重,点的颜色越相近,代表值越相似。Fig 11b中的线段的长度代表两个strain的亲缘关系。差异snp越多,则线段越长,代表两个strain的亲缘关系越远。 显然,遗传上的差异可以导致性状的差异,但是并不是所有的遗传差异都会造成性状上的差异,这就是假阳性出现的原因。
混合线性模型 混合线性模型通过引入一个额外的项来矫正线性模型导致的误差。首先通过下边的例子来说明怎样估计unmodeled factors的大小。Fig12.b中B6和C3H这两个strain的基因型非常相似,它们只有一个snp不一样。在这里我们假设偶数位点的snp影响性状,而奇数位点的snp则对性状没有影响。因为B6和C3H的基因型非常相似,所以它们的unmodeled factors也相似。相反,B6和CAST的基因型很不一样,所以它们的unmodeled factor也不一样。
Unmodeled factors可以通过两个strain的相同snp的个数来表征,我们可以建立一个矩阵,如Fig 13所示,矩阵中的元素代表两个strain相同snp的数目。根据这个矩阵可以得到unmodeled factor的大小,然后用一个随机变量u来代表unmodeled factors。u也被称为随机效应或variance component。 Fig 13. 【参考文献】 Martin L S, Eskin E. Population Structure in Genetic Studies: Confounding Factors and Mixed Models[J]. bioRxiv, 2017: 092106. ![]() |
|