英国50万人研究的大型健康表型与基因型数据公开可申请了！

生物_医药_科研 2018-12-15

展开全文

文章题目：The UK Biobank resource with deep phenotyping and genomic data

研究人员：Clare Bycroft团队

发表时间：2018. 10

期刊名称：Nature

影响因子：41.577

研究亮点

英国生物数据库（UK Biobank）是一个前瞻性的队列研究项目。该项目收集了来自英国的约50万人的深度遗传和表型数据，人群的年龄在40-69岁之间。该项目所开放的资源的规模和范围都是明显超过其他相关开放资源的。在这50万人的大型健康数据中，每个参与者都有丰富的表型和健康相关信息，包括生物测量、生活方式指标、血液和尿液中生物标志物以及躯干、大脑的成像图。该项目通过将健康和医疗记录联系起来，提供追踪研究（follow-up）时的资料。可贵的是，UK Biobank竟然对所有参与者都收集了全基因组（genome-wide）基因型数据。这为寻找新的遗传相关性与复杂性状的遗传基础提供了许多机会。

在本文里研究者描述了对遗传数据的集成式分析，包括基因型质量、种群结构特性和遗传数据的相关性，以及高效的阶段化和基因型估算，可测变异数量增加到约9600万。同时，作者总结了UK Biobank所有表型资源的现有内容，以及他们的一些研究计划。同时也描述了全部50万参与者的基因型数据集。UKB采用了一系列质控程序，并进行了诸多分析，解释了遗传数据的特性，例如人口结构和相关性，这对于下游分析非常重要。此外，研究者还估计了单倍型和推断基因型，放进数据集，这使得可测试的变异数量增加100倍以上，达到约9600万个变体。

UK Biobank 介绍

在大约50万名UK Biobank参与者中，研究者团队对每个参与者都收集了各种各样的表型信息和生物样本。在招募参与者时，每个参与者提供电子签名同意书，并回答关于社会人口特征、生活方式和健康相关因素的问题等。他们还提供了血液、尿液和唾液样本，这些样本可以储存起来进行许多不同类型的研究（例如：基因组、蛋白质组和代谢组学分析）。一旦招募工作完全展开，更深一步的评估访问将会进行，包括一系列的眼部测量，心电图测量，动脉僵硬度和听力的测试。

如图1所示，采集的数据类型包括社会人口特征和生活方式因素、脑部成像（MRI）认知测试、听力和视力测量、体育活动监控（采用健康手环）、心脏与躯体成像（MRI）、心脏和肺部功能测量、生物样本采集（血液、唾液、尿液采集，用于生化标记和基因组分析），骨骼和关节的全身双能X光吸收、身体尺寸和阻抗测量。数据采集将与电子病例、死亡登记、癌症记录同步。与此同时，进行UK Biobank Axiom基因芯片的分析，得到的数据包括全基因组的覆盖的63万芯片位点，稀有变异及编码变异125000个位点，目标区域生物标记47000个位点，与特异性表型相关联的生物标记45000个位点。基线的信息将以几种方式继续追踪扩展。例如，在一部分群体中每隔几年进行重复评估，以便能校准测量数据，调整回归稀释偏移和估计时间线上的变化。截止2018年5月，共有1万4千多人死亡，7.9万名人患癌，40万参与者至少住院一次。目前正在采集其他国家数据库的数据，包括初级医护，筛查方案与针对特别疾病的登记，同时也联系参与和进行在线问卷调查。

此外，各种研究兴趣指标也得到了测量，包括与疾病相关的（例如影响血管病的脂类和影响癌症的性激素），与诊断价值相关的（例如糖尿病的HbA1c酶和与关节炎有关的风湿因子），以及去评估其他没有被透彻评估的一些表型（例如肝功能和肾功能的标记物）。UKB不仅规模庞大，它之所以在学界饱誉盛名，还是因为它是一个开放性的资源，它鼓励全世界的研究人员申请数据，包括学术目的、慈善目的和公共部门与商业部门，为任何符合公众利益的健康相关研究来获取数据。

全基因组基因分型

UKB包含了488,377个参与者的基因型。如此庞大的人群基因型数据，是用两个很相似的基因分型芯片来测定的。分别是UK BiLEVE Axiom芯片（807,411个标记分型）和Applied Biosystems UK Biobank Axiom芯片（825,927个标记分型），二者95%的标记物内容是一样的，后者应用到绝大多数参与者。芯片是用来捕获SNP和INDEL的，如图1中的总结。另外该芯片还包括了次等位基因频率（MAF）的变体，包括稀有标记（频率<1%）。另外在欧洲人群中常见（>5%）和低频（1-5%）的MAF范围下，这些标记物提供了良好的基因组范围的覆盖以便推测。

与此同时，本研究项目对于人种也有专门的设计。参与者须报告他们的人种背景。然而大多数（94%）的参与者报告为白人，仅有少数欧洲以外的族裔。

研究通过统计测试来筛出质量较差的芯片标记，通过统计测试后，研究者将检测基因型缺失率设为0.97%，跟昂飞芯片相比。同时，基因型性别（X,Y染色体的芯片标记的相对强度）与报告的性别若有不符，可以作为依据来检测样本处理错误或其他类型的错误。当然，除了人为的错误外，也可能会出现一些特例，如变性者、两性人，或者罕见的基因突变、染色体变异等。但总的来说，检测出与报告性别不一样的参与者对于后续的研究而言还是必要的。

图2 基因型数据质量控制情况汇总

图a表示MAF（次等位基因频率）在UK Biobank中的大小分布直方图。如图所示，频率越低，直方柱越高。这也符合研究的逻辑，MAF实际上是多态性和突变的一种体现，而大多数位点出现的变体，其等位基因频率是很低的，很多SNP变体也许只在一个参与者身上发生。图a中嵌套的小图只体现了MAF值小于0.01的部分，可以看出较多的生物标记抓取到的次等位基因的计数在1000-10000之间；图b 主要是描述质控过滤掉的标记的情况，可以看出绝大多数批次都通过质控（横坐标为零）；图c对比了UK Biobank和另一个欧洲数据库ExAC的次等位基因频率分布对比，发现了相似性，研究者应该是以此来证明UK Biobank MAF值总体的可靠性；图d主要是体现质控中报告性别和测得基因型性别相符以及不服的情况，不符的各自情况分类并进行在图上进行了标记。

研究成果

UK Biobank队列研究的人群结构，是采用主成分分析进行测算的。研究者使用的算法叫做fastPCA，该算法通过近似出只在最顶端的n个可以解释最多变异的主成分，来在数据集上运作。此次研究中主成分分析表现良好。这个算法只使用最顶端的n主成分来解释最多的变异，所以需要事先指定好n值。在本次研究中，研究者用了通过最小化连锁不平衡（minimise linkage disequilibrium）得到的407219个互不相干的高质量样本和147604个高质量标记，来计算出40个顶端主成分。之后研究者计算了主成分负荷，并把所有样本投入到主成分中，从而形成了一个集合，包含所有样本的主成分得分。

正如研究预期一样，主成分分数相近的个体，也存在相似的民族背景（自我报告）。背景资料与基因型结果的一致性，在该研究中实际上起到了互相印证的效果，同时提高了背景调查、芯片测序结果、主成分分析算法这三者的置信能力。

图3 祖先多样性和家族关系

图a 的每个点表示一个样本，共488,377个点。每个样本根据主成分分析的4项主要成分的得分的不同，在二维平面上排列成两张图。每个点的颜色根据自我报告的民族/国家/人种而不同，例如华裔就用红色指代，最终在图上也富集成了红色区域。反之，如果自我报告结果和主成分分析结果不吻合，是无法形成纯色的区域的；图b表示的是参与者的亲属分布数量，例如亲兄弟姐妹用蓝色表示。可以看到在整理亲缘关系后，只有1位亲属一起参与了该研究的参与者比较多。其实有的分析是要排除掉有亲缘关系的个体的，因为可能提高样本之间的关联性，造成偏差。所以做这项分析对下游分析来说也是必要的；图c表示了一些通过家庭关系分析以后，得出的家庭关系的例子。点代表参与者，线代表他们之间的推断关系，线的颜色同图b，每个网络上的数显示的是忽略了三级对后的同类型的家庭网络在总样本中有多少个。

根据HLA*IMP: 02的报告，研究者将每个位点（loci）上的HLA基因型定义为具有最大后验概率的等位基因对。他们主要使用的分析相关性的方法是对HLA等位基因和每种疾病（如2型糖尿病和心肌梗死等）使用逻辑回归，结果是没有发现显著性的相关性。

另外，研究者还对参与者的站立高度，即身高进行了全基因组关联分析（GWAS）。这项分析的目的是评估直接测出的基因型与推断出的数据（如HLA基因型）的使用潜力。研究者对34万个欧洲血统的互不相关（根据上文的血缘分析）的个体进行了全基因组关联分析。他们将分析结果与欧洲GIANT联盟数据库的25万个体的荟萃分析（meta-analysis）结果进行对比。结果则很喜人，两个数据库的身高指标的全基因组关联分析的z-score是相似的。而且UK Biobank的统计功效（power）还要超过GIANT。这可以说是UK Biobank数据有效性的一个有力证据。

文章总结

除了诸多表型外，UK Biobank早已临时公布了15万参与者的基因型数据，这些数据通过外部的研究者，向UK Biobank 反馈研究结果。并且该队列研究还在逐渐添加一些表型信息。这些结果已汇成成千上万的表型GWAS结果。与此同时，另一篇牛津大学基于UK Biobank数据的脑成像遗传性研究也同时在Nature期刊上发布了。而如今，全部基因数据的可申请获取性，将加速这一领域发展。

本研究中介绍的UK Biobank遗传及表型数据集可通过访问申请使用。（参见http://www./register-apply/）

小编评论

UK Biobank的公开对于流行病学研究、大型遗传学研究来说，都意义重大。很多等位基因，由于频率低的缘故，许多小样本研究难以分析。而50万人的大数据，增加了很多分析可能性。可以说推动了整个健康领域发展也不为过。当然，前提是研究者想申请的数据，在UK Biobank中存在。这也体现出UK Biobank数据可赞之处，该项目是前瞻性的队列研究，这意味着数据类型、数据队列和数据质量是可以被补充和修正的。这使得UKB的数据潜力巨大。而为了证明这大量的数据，并没有太大噪声和偏差，UKB不仅做了详尽的过滤和质量控制，还做了配套的分析和对比，例如身高的GWAS与其他数据库来进行对比，交叉验证。此外，还同步与牛津大学合作发表了一篇高质量的大脑成像遗传学相关文章，算是小试牛刀，验证该数据的潜力，真的是可以应用在非常多的医疗健康亚领域。临床基础研究、流行病学研究到遗传学研究、生物信息学研究都可以从中获利。美中不足的是英国人群的祖源分布较为单调，文章也有指出，大多数祖先被验证为欧洲白人。这使得研究人群基于其他人种甚至混合人种的研究能获取的等位基因频率和疾病的参考性较低。不过好处是，这也使得UKB可以被视为欧洲白人人群的数据库，没有因人群混合而带来太多不可预判的偏差。总之，UK Biobank使其数据公开可申请这一举措，将会使全世界的健康领域研究者从中受益。

参考文献：

[1] Peter Donnelly, Jonathan Marchini, et al. The UK Biobank resource with deep phenotyping and genomic data[J]. Nature, 2018,562: 203–209.