分享

GWAS的困境和遗传模型的新思

 rodneyzhang 2017-09-03

1. 表型和基因型的游戏

GWAS(Genome-wide Association Study,全基因组关联分析)是一个逻辑清晰的游戏:我们以身高为例,已知身高的遗传率很高(估计为为0.8),也就是说,A身高1.5,B身高1.8,这30厘米的差异中,有至少24厘米是遗传差异造成的。遗传的基础又是DNA,所以我们应该能够在A和B的基因组上,找到DNA的差异,而这种DNA序列的差异最终贡献了这24厘米的差异,GWAS就是想去找到这种DNA序列的差异。

于是我们找来1000个人,量了每个人的身高(表型),测了每个人的基因组,找出所有的基因组上差异的位点(基因型),对于每个差异的位点都去和表型做一个相关性的分析,给出p-value用来衡量表型和每个位点的相关性。如果和某一个位点非常相关,啊哈,那我们就找到了能够影响身高的DNA差异!

2. 不够“翘”的QQ图

每一位跑GWAS的分析人员,心里都暗暗期待着一个“傲人”的曲线的出现:希望QQ图在该“翘”的地方能够“翘”起来,特别是在尾巴上(图1)。“翘”意味着偏离了y=x的直线,翘上去意味着有位点的p-value值比预期的小很多,而这很可能是由真实的表型-基因型关联导致的。

 

图 1. 一个很“翘”的QQ图。

但是,现实总是很骨感,图2才是GWAS分析的常态:Manhattan图上看到零零散散的峰图,一蹶不振的QQ图。哎,又是一次失败的GWAS分析!

图 2. 一个常见的GWAS结果

3. 哪里出问题了?

我研究的性状本事是个遗传率很高的性状呀!基因组上应该会有一些变异能够解释这一表型的变异的,为什么一个都找不到呢?

其实QQ图不够翘,只是GWAS困境的冰山一角,这是比较惨的一种情况,即使是比较成功的情形下,也隐藏着一些问题。

在很多成功的GWAS事例里,即使拿到了显著性关联的位点,结果却显示每个位点能够解释的表型差异微乎其微。目前身高的研究已经动用了万级别的人群数量,但是拿到的遗传位点加到一起,其能够解释的表型变异不足5%,距离0.8的遗传率还差了75%呢!于是这75%的缺口就成了GWAS中“缺失遗传率”(missing heritability的问题)。那么,是什么导致了遗传率的缺失呢?

4. “开个天窗”的解释

75%的缺口,弄得遗传学家人心惶惶,于是各种解释也纷纷出炉。首先大家都基于一个共同的框架,认为像身高这种性状是一种复杂性状,是由多个基因控制的。其中一个解释是说,实际上我们做GWAS的SNP里面有很多是能够贡献身高表型差异的,但是贡献率很低,结果他们的p-value也不是很高,也被埋在背景里面了,拿不出来。但是说到多基因,多少个基因才叫多呢?1999年的时候,一个针对自闭症的研究解释,控制这一性状的位点,可能多达15个以上。当时科学家们纷纷觉得,这个有点太多了(内心OS:这么多的话,还研究个qiu,复杂到根本搞不清楚啊。。。)。但实际上,现在的研究显示:15个是一个很低的估计!

再以身高为例,2008年的时候,身高的所有关联位点能解释表型差异的5%左右;后来,人们加大了样本量(25万+),找到的位点能够解释更多遗传变异了(16%),但是这包括了697个基因组位点!但是与0.8还差着64%呢!那如果最终解释清楚,又该有多少个遗传位点?

5. 拆了房子吧

最近的一篇Cell的综述论文[1],可谓大块人心,反正我是跪着读完的,Johnathan K. Pritchard出品,必属精品!这篇论文本身也是一篇网红论文,在Twitter上面被转载和讨论了900多次,发表2个半月,引用11次。(顺便吐槽一下对Twitter的封锁,上了Twitter才发现,好多大牛科学家在Twitter上好活跃呀!!!对于一手的科研信息和交流,我们中国的研究生们又痛失一重要渠道。)

这篇文章说,我们不要再去整什么“多基因模型”了吧,要解释一个表型的变异,应该考虑“全基因模型”(Omnigenic model)!

因为考虑“多基因模型”,我们仍然想着,某一个性状由多个位点(基因)去解释,我们总是还想着去一个个把某一个位点(基因)挖出来,然后把他们连成分子网络,建立出一个靠谱的模型,然后我们就可以“当上帝”啦:拿着一个基因组,我能准确预测出表型。

但是“全基因模型”告诉你,去你的这份幻想!因为基因组上几乎所有的位点都和你研究的性状有关!这意味着你所设想的那个分子网络,如果存在的话,也是复杂到难以全面厘清。

作者还很贴心地为“全基因模型”构建出内在的框架(图3):与表型相关的所有的基因,应该分为“核心基因”(core genes)和“外围基因”(peripheral genes)。核心的基因可能是对表型影响比较大的一些基因,但是每个核心基因,都与其他很多基因有着千丝万缕的联系,而那些外围的基因相当于为核心基因提供了分子层面的“基因环境”,也有可能是我们常说的遗传背景。如果考虑身高,比如一个骨生成诱导因子基因是一个核心基因,而一个嗅觉受体基因可能是外围的基因。这两个基因之间,可能通过复杂的分子网络联系在一起,就像一张巨大的蜘蛛网,嗅觉受体基因上的扰动,可能通过复杂的方式影响了核心基因:比如表达量,比如表观水平的影响,最终能够体现出表型的差异。这简直就是分子层面的“蝴蝶效应”。

 

图 3. “全基因模型”示意图

6. 表型的思考

无论如何,我还是很喜欢Pritchard他们的“全基因模型”,至少又减少了每回看到不够“翘”的QQ图的痛苦,能够安然接受着。

但是,我看到的很多“丢失的遗传率”的思考都是围绕着基因型在做文章,但是GWAS毕竟是一个表型-基因型的游戏,表型上是不是也有思考的缺环?我们测量的形状是不是一个well-defined的性状?我们测量的性状本身,是不是具有我们期待的那种遗传结构?真正well-defined的性状,和进化上找真正受选择的那个性状之间有什么关系?表型的本身是不是应该进一步细化,甚至深入到器官层面?组织层面?细胞层面?亚细胞层面?分子层面?如果能提取到不同层面的表型,去回答同一生物学的问题,会不会使得整个图像更为完整,也会找回更多的“缺失遗传率”?

参考文献

[1] Boyle, E. A., Li, Y. I. & Pritchard, J. K. An Expanded View of Complex Traits: From Polygenic to Omnigenic. Cell 169, 1177-1186, doi:10.1016/j.cell.2017.05.038 (2017).


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多