GWAS的困境和遗传模型的新思

rodneyzhang 2017-09-03

展开全文

1. 表型和基因型的游戏

GWAS（Genome-wide Association Study，全基因组关联分析）是一个逻辑清晰的游戏：我们以身高为例，已知身高的遗传率很高（估计为为0.8），也就是说，A身高1.5，B身高1.8，这30厘米的差异中，有至少24厘米是遗传差异造成的。遗传的基础又是DNA，所以我们应该能够在A和B的基因组上，找到DNA的差异，而这种DNA序列的差异最终贡献了这24厘米的差异，GWAS就是想去找到这种DNA序列的差异。

于是我们找来1000个人，量了每个人的身高（表型），测了每个人的基因组，找出所有的基因组上差异的位点（基因型），对于每个差异的位点都去和表型做一个相关性的分析，给出p-value用来衡量表型和每个位点的相关性。如果和某一个位点非常相关，啊哈，那我们就找到了能够影响身高的DNA差异！

2. 不够“翘”的QQ图

每一位跑GWAS的分析人员，心里都暗暗期待着一个“傲人”的曲线的出现：希望QQ图在该“翘”的地方能够“翘”起来，特别是在尾巴上（图1）。“翘”意味着偏离了y=x的直线，翘上去意味着有位点的p-value值比预期的小很多，而这很可能是由真实的表型-基因型关联导致的。

图 1. 一个很“翘”的QQ图。

但是，现实总是很骨感，图2才是GWAS分析的常态：Manhattan图上看到零零散散的峰图，一蹶不振的QQ图。哎，又是一次失败的GWAS分析！

图 2. 一个常见的GWAS结果

3. 哪里出问题了？

我研究的性状本事是个遗传率很高的性状呀！基因组上应该会有一些变异能够解释这一表型的变异的，为什么一个都找不到呢？

其实QQ图不够翘，只是GWAS困境的冰山一角，这是比较惨的一种情况，即使是比较成功的情形下，也隐藏着一些问题。

在很多成功的GWAS事例里，即使拿到了显著性关联的位点，结果却显示每个位点能够解释的表型差异微乎其微。目前身高的研究已经动用了万级别的人群数量，但是拿到的遗传位点加到一起，其能够解释的表型变异不足5%，距离0.8的遗传率还差了75%呢！于是这75%的缺口就成了GWAS中“缺失遗传率”（missing heritability的问题）。那么，是什么导致了遗传率的缺失呢？

4. “开个天窗”的解释

75%的缺口，弄得遗传学家人心惶惶，于是各种解释也纷纷出炉。首先大家都基于一个共同的框架，认为像身高这种性状是一种复杂性状，是由多个基因控制的。其中一个解释是说，实际上我们做GWAS的SNP里面有很多是能够贡献身高表型差异的，但是贡献率很低，结果他们的p-value也不是很高，也被埋在背景里面了，拿不出来。但是说到多基因，多少个基因才叫多呢？1999年的时候，一个针对自闭症的研究解释，控制这一性状的位点，可能多达15个以上。当时科学家们纷纷觉得，这个有点太多了（内心OS：这么多的话，还研究个qiu，复杂到根本搞不清楚啊。。。）。但实际上，现在的研究显示：15个是一个很低的估计！

再以身高为例，2008年的时候，身高的所有关联位点能解释表型差异的5%左右；后来，人们加大了样本量（25万+），找到的位点能够解释更多遗传变异了（16%），但是这包括了697个基因组位点！但是与0.8还差着64%呢！那如果最终解释清楚，又该有多少个遗传位点？

5. 拆了房子吧

最近的一篇Cell的综述论文[1]，可谓大块人心，反正我是跪着读完的，Johnathan K. Pritchard出品，必属精品！这篇论文本身也是一篇网红论文，在Twitter上面被转载和讨论了900多次，发表2个半月，引用11次。（顺便吐槽一下对Twitter的封锁，上了Twitter才发现，好多大牛科学家在Twitter上好活跃呀！！！对于一手的科研信息和交流，我们中国的研究生们又痛失一重要渠道。）

这篇文章说，我们不要再去整什么“多基因模型”了吧，要解释一个表型的变异，应该考虑“全基因模型”（Omnigenic model）！

因为考虑“多基因模型”，我们仍然想着，某一个性状由多个位点（基因）去解释，我们总是还想着去一个个把某一个位点（基因）挖出来，然后把他们连成分子网络，建立出一个靠谱的模型，然后我们就可以“当上帝”啦：拿着一个基因组，我能准确预测出表型。

但是“全基因模型”告诉你，去你的这份幻想！因为基因组上几乎所有的位点都和你研究的性状有关！这意味着你所设想的那个分子网络，如果存在的话，也是复杂到难以全面厘清。

作者还很贴心地为“全基因模型”构建出内在的框架(图3)：与表型相关的所有的基因，应该分为“核心基因”（core genes）和“外围基因”（peripheral genes）。核心的基因可能是对表型影响比较大的一些基因，但是每个核心基因，都与其他很多基因有着千丝万缕的联系，而那些外围的基因相当于为核心基因提供了分子层面的“基因环境”，也有可能是我们常说的遗传背景。如果考虑身高，比如一个骨生成诱导因子基因是一个核心基因，而一个嗅觉受体基因可能是外围的基因。这两个基因之间，可能通过复杂的分子网络联系在一起，就像一张巨大的蜘蛛网，嗅觉受体基因上的扰动，可能通过复杂的方式影响了核心基因：比如表达量，比如表观水平的影响，最终能够体现出表型的差异。这简直就是分子层面的“蝴蝶效应”。

图 3. “全基因模型”示意图

6. 表型的思考

无论如何，我还是很喜欢Pritchard他们的“全基因模型”，至少又减少了每回看到不够“翘”的QQ图的痛苦，能够安然接受着。

但是，我看到的很多“丢失的遗传率”的思考都是围绕着基因型在做文章，但是GWAS毕竟是一个表型-基因型的游戏，表型上是不是也有思考的缺环？我们测量的形状是不是一个well-defined的性状？我们测量的性状本身，是不是具有我们期待的那种遗传结构？真正well-defined的性状，和进化上找真正受选择的那个性状之间有什么关系？表型的本身是不是应该进一步细化，甚至深入到器官层面？组织层面？细胞层面？亚细胞层面？分子层面？如果能提取到不同层面的表型，去回答同一生物学的问题，会不会使得整个图像更为完整，也会找回更多的“缺失遗传率”？

参考文献

[1] Boyle, E. A., Li, Y. I. & Pritchard, J. K. An Expanded View of Complex Traits: From Polygenic to Omnigenic. Cell 169, 1177-1186, doi:10.1016/j.cell.2017.05.038 (2017).