转自 博客园 前段时间有位小可爱问我,为什么她的QQ图特别飘,如果你不理解怎样算飘,请看下图: 理想的QQ图应该是这样的: 我当时的第一反应是:1)群体分层造成的;2)表型分布有问题。因此让她检查一下数据的群体分层情况,如果没有问题就看一下表型分布。 这段时间有空了,我觉得有必要梳理一下这个飘逸的QQ图,到底是怎么回事儿以及如何确定这么飘逸的QQ图有没有问题。 1.产生飘逸的QQ图的原因产生飘逸的qq图的原因有很多,比如我们喜闻乐见的:基因多效性(polygenicity)。也有可能是混淆偏倚,比如群体分层,假如样本中混合了欧洲、非洲、亚洲等各个地方的群体,本身各个群体的SNP频率差异就很大,如果不加以群体分层控制,关联分析的时候就会产生很多偏离预期值的SNP位点。 很久以前,出现飘逸的QQ图的话,我们可以搭配膨胀系数(膨胀系数的计算)一起看,膨胀系数如果接近1(比如1.01,1.2这种不算接近1),那么也还算过得去。 但,膨胀系数接近1这种是比较理想的情况。实际情况是,很多人的QQ图不仅飘逸,膨胀系数还老高。 这就尴尬了,连膨胀系数都无法确定这个QQ图飘的正不正常了。 所以呢,接下来还有什么方法确定我们的基因组数据有没有问题呢? 2.怎么确定是基因多效性还是混淆偏倚呢接下来我要介绍一款神人工具LDSC (LD SCore),全称是LD Score regression 这款工具就是帮我们实现如何区分飘逸的QQ图正不正常。 具体来说,就是通过LDSC工具计算基因组数据的LD回归截距,如果是基因多效性,那么截距会接近1(比如1.004),如果是群体分层等混淆因素引起的,那么LD回归截距就会远离1(比如1.30)。 除了看截距数值,我们还可以通过画LD Score的图来确定数据是否有问题。 2.1基因多效性如果画出来的LDscore图是下面这种形式,说明GWAS结果是没有问题的,QQ图飘逸就让它飘逸吧。 2.2混淆偏倚如果画出来的LDscore图是下面这种形式,说明QQ图是有问题的。 3.总结总之,看截距。 截距很接近1,就不用管QQ图好不好看了。 远离1(1.3这种),说明基因组数据是有问题的,检查一下PCA加够了没有、群体分层有没有控制好、是否混了很多有亲缘关系的样本在里面。 如果你想了解怎么用LDSC计算截距,请见下回解析。 标签: GWAS |
|