文章题目:Gene discovery and polygenic prediction from a genome-wide association study of educational attainment in 1.1 million individuals 研究人员:阿姆斯特丹自由大学Aysu Okbay,昆士兰大学Peter M. Visscher,南加利福尼亚大学Daniel J. Benjamin等人 发表时间:2018. 07 期刊名称:Nature Genetics 影响因子:27研究亮点 人们往往认为遗传是教育程度高低的重要因素。自大规模人群研究以来,教育成就在基因组上的关联便是热点关注。一项百万样本规模的基因组队列研究给出了这方面的最新进展。 研究背景 教育成就(educationalattainment)受社会和其他环境因素影响巨大,但遗传因素估计至少占20%的个体差异。受教育程度的全基因组关联(GWAS)研究成果已用于其他生物学行为机制研究。 然而,对于大规模人群多基因研究,因收录个体背景复杂、基因数量大,混杂因素引起的差异往往使统计检验值有所膨胀,继而得出大量虚假结果。 来自阿姆斯特丹自由大学Aysu Okbay、昆士兰大学Peter M. Visscher、南加利福尼亚大学Daniel J. Benjamin和各自团队,致力于研究怎样从大量混杂的信息中,找到真正的关联因素。 今年7月份《Nature Genetics》期刊发表了一项研究中,由三人协调23andme组成的团队再次由教育成就这一特征着手,汇集了来自15个国家的110多万参与者,是迄今为止规模最大的人类遗传学研究之一,最终识别出了超过1200个与个体受教育程度有关的基因突变。 鉴定关联SNP GWAS对基因组和个体表型进行分析。在研究教育成就这一特征时,该研究中以完成学业的年数(EduYears)来衡量。 然而,与预期中的一致,初步处理获得大约1000万个SNP关联统计数据。QQ图可以看出,图点明显远离参考虚线,膨胀高达2.04(图1)。这样的结果是因为统计检验膨胀包含大量虚假结果。 图1 EduYears荟萃分析QQ图 研究人员继而使用开发的连锁不平衡(linkage disequilibrium)打分回归进行校正,图点基本呈现线性围绕参考线(图2),说明为校正后统计检验来自真实基因信号。 图2 EduYears荟萃分析LD打分图 调整后鉴定出1271个与学业年数显著关联的SNP,称主导(lead)SNP。 生物学注释 获得主导SNP后,这些SNP可能怎样发挥作用呢?研究人员采用多种方法对上一步结果进行生物学注释。 生物学注释结果与之前主要结论一致,如主导SNP附近的基因绝大多数富集在中枢神经系统中(图3)。 图3 MeSH分类下显著SNP附近基因在各组织情况 这些基因参与了大脑发育过程和神经元-神经元通信,对应编码的蛋白具有神经生理、神经递质分泌、离子通道和代谢型通路的激活,以及突触可塑性的功能(图4)。 图4 显著SNP附近基因在神经元通信方面的功能 然而与神经元数量一致的神经胶质细胞相关的基因并没有富集,无法支持髓鞘形成改变轴突传递速度而影响认知这一假说。 多基因预测 那么研究结果真实性如何呢?是否可以在其他独立数据源上重复呢?研究人员将结果换算多基因得分(Polygenic Score,PGS),在其他来源数据集上进行了预测实验。 两个来源的队列数据用于进行验证,分别为National Longitudinal Study of Adolescent to Adult Health(Add Health)和Health and Retirement Study(HRS)。与其他变量相比,PGS能起到较好的预测水平,尤其是PGS预测性优于家庭收入(图5),证明了结果的真实性。 图5 多个因素预测效果 小编评论 教育成就在基因组上的体现一直是关注热点,甚至有文献直接打出“成功基因”的噱头。大样本队列研究可以提高研究可信度,但同时复杂的背景也会导致虚假结果。本文在如何对数据进行质控起到了很好的示范,同时分析维度多样,并得出了诸多有趣的结论,多达200页附录信息有如宝库一般值得挖掘。 参考文献: [1] James J. Lee, Robbee Wedow, et al. Gene discovery and polygenic prediction from a genome-wide association study of educational attainment in 1.1 million individuals [J]. Nature Genetics, 2018, 50: 1112–1121. |
|