分享

对全基因组关联分析(GWAS)的一些个人理解

 微笑如酒 2018-01-10

在前几期的文章,我们解释了连锁分析的基本原理。这一期当然就开始介绍全基因组关联分析(GWAS)。在之前的Omicshare课堂里,我们已经对这个主题做过了一些介绍。GWAS分析是个系统工程,中间会涉及群体结构分析、连锁不平衡分析、关联分析等等。


读者也可以登陆论坛阅读我们之前分享过的内容:


《第9期在线交流“全基因组关联分析(GWAS)技术交流”【视频】》 

http://www./forum/thread-130-1-12.html

注:关于GWAS的入门级讲解,附件包含利用tassel进行关联分析的实操课件。


《重测序图形专题解读汇总目录贴》

http://www./forum/thread-1483-1-12.html

注:这个系列主题包含了群体结构分析、曼哈顿plot、QQ-plot、LD plot等图形的解释和画法,相信对你理解GWAS分析的结果非常有帮助。


图1 论坛丰富的主题帖等着你去翻阅


另外,自从公司搬迁了新办公室,天天看珠江新城plot,于是对GWAS的理解又深刻了一个数量级。


图2 在生物岛远眺珠江新城plot


GWAS分析涉及的内容的确很广泛,所以这个部分我们会展开一个小专题介绍GWAS分析的方方面面,在串联回顾一下之前文章中已经涉及到知识的同时,会再补充一些之前文章中没有讨论到的问题。

1

群体多样性和基因定位精度


正如我们在上文提到的,GWAS分析和连锁分析,从存粹统计学的角度来讲是几乎没有区别的——都是统计基因型(通常是SNP)与表型间的相关性。开展此类分析的基础是目标群体具有表型和基因型的多样性。


要获得这样的群体开展研究,我们既可以采取人工杂交建立家系的方式,也可以从自然群体中直接获得。人工构建杂交家系的优势是群体特性更加可控,自然群体的优势是顺手牵羊,省时省力。两类群体的优缺点,我们下文会再详细解释。


如果是前者类型的分析,常被称为连锁分析,而后者的分析常被称为关联分析。所以说,关联分析和连锁分析定义的区别在于生物学维度的实验设计,而非统计学原理。


基于自然群体的关联分析,其通常的优势在于:


(1)使用自然群体,省去构建家系的花费。这对世代间隔长的物种(例如林木)、繁殖力低的物种(例如,单胎动物)或者不适合人为干预创造群体的物种(例如,人)来说,这是非常重要的特性。


(2)已经天然杂交多代,重组更加充分,定位精度更高。

 

在连锁分析章节中,我们提过要提高定位精度,就要尽可能减少最小重组片段的大小,那么要从3个方面入手:


(1)增加群体规模——当群体足够大,哪怕万分之一概率的重组事件也能发生;


(2)增加杂交世代数——即使杂交一代不重组,多代总是可以提高概率的;


(3)减少其他信号的干扰。在连锁分析中,很重要的是减少背景QTL的干扰(在复合区间作图中讨论过),最有效的方法就是通过回交纯化遗传背景。在关联分析中,更重要的是减少群体结构的影响(我们立刻会讲这个问题)。


这里,增加群体规模需要金钱成本(群体越大越花钱啊),杂交需要时间成本。对于人工家系群体来说,多代杂交花费的时间代价实在太大。那还不如从自然群体顺手牵羊。因为自然群体天然已经发生了多代的杂交,最小重组片段通常更小(在连锁分析部分的章节,我们已经讨论过)。


这个数值,在关联分析中对应一个关键的参数——连锁不平衡(LD)衰减距离,这个概念我们在Omicshare论坛《重测序图形专题解读汇总目录贴》中解释过,而LD plot就是为了用于直观查看目标QTL区域的染色体片段连锁情况(具体图形解释请翻看论坛)。


图 3 关联分析中的LDplot

2

群体结构的影响与处理方式


做生物研究的都知道一个基本原理:最理想的实验是单因素实验,而这个因素只能是与我们实验目标相关的因素。


类似的,理想的GWAS研究也应该是单因素实验,群体中的个体,彼此的差异度应该是相同的(如图4-I)。个体间唯一最大的差异应该是与控制目标性状的基因之间的差异。但实际情况往往并非如此。


因为材料都是取自自然群体,群体间个体间的差异往往还来自其他因素,包括群体结构(例如,南方和北方人的差异)和局部的亲缘关系(例如,群体中一小撮人是来自同一个家庭)。


例如,图3II群体内局部存在亲缘关系、图3III群体存在群体结构(population structure),而图3 IV、V群体内的关系更是错综复杂。这些因素的干扰,导致我们的关联分析不再是单因素实验,如果我们视而不见,自然会导致分析结果不可靠(假阳性或假阴性)。


图4 各类群体的辐射状进化树,呈现了群体中个体间的遗传关系


所以在取样的时候我们应该尽可能避开群体遗传关系过于复杂的材料。但有时候,这些问题是无法避开的。例如,农作物在培育过程中必然存在各个复杂的杂交过程,要拿到想图3I那样的均一的群体几乎是不可能的。


既然无法消除这些因素,我们也可以干脆将这些因素当成实验因素的一部分进行控制。例如,全基因组关联分析中的Q+K模型,就是将群体结构(Q)和个体遗传关系(K)加入混合线性模型中,对Q和K的影响进行预测评估,从而控制和减少它对目标基因关联定位的影响。


具体的全基因组关联分析的教程视频讲解,也可以登录我们的Omicshare课堂:

第9期在线交流“全基因组关联分析(GWAS)技术交流”

http://www./class/Home/Index/singlev?id=3


当然,最理想的遗传关系受控的群体,只能是人工杂交出的群体。植物上比较有名的包括拟南芥的MAGIC群体和玉米的NAM群体。这个群体比较类似,都是典型的多亲本杂交得到的人工“半自然”群体,是基因定位的良好材料。


以玉米NAM(nestedassociation mapping )群体的构建过程为例。如图5,玉米品种B73分别与其他25个品种杂交,每个杂交组合得的一个200个个体的重组自交系(RIL)群体,因此一共得到25个RIL群体,共5000个个体。


由于这个大群体杂交过程是受控的,所以不会对关联分析有严重干扰。而由于材料来自多个亲本杂交,所以群体的多样性和重组率(重组率会影响基因定位的精度)又高于单个双亲杂交群体。NAM群体是玉米基因定位的很好材料,这个群体发过很多文章,感兴趣的读者可以自己谷歌一下。

 


图5 玉米NAM群体构建过程示意图

3

对低频基因的挖掘能力不足

    

图6 突变效应和突变频率


由于需要计算性状与基因型的相关性。但某个基因型(例如致病基因)在群体中以非常低的频率存在的时候,在群体水平的关联分析是很难检测到显著性的结果的。这个时候,在潜在携带这个基因的家系内开展分析(对于人类,典型的就是孟德尔遗传病,而对动植物则可以创造家系),是比较好的方法。


今天的内容就到这里啦~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多