【原】通过机器学习改进基因组发现

雨夜的博客 2022-02-22

展开全文

每个人的基因组共同编码他们与生俱来的生化机制，由超过 30 亿个 DNA 字母组成。然而，只有一小部分基因组（约 4-5 百万个位置）在两个人之间存在差异。尽管如此，每个人独特的基因组与他们所经历的环境相互作用，以确定他们的大部分健康结果。了解遗传变异和性状之间关系的一个关键方法是全基因组关联研究（GWAS），其中一个队列中存在的每个遗传变异都被单独检查与感兴趣的性状的相关性。GWAS 结果可用于通过识别与感兴趣的疾病密切相关的基因来识别和优先考虑潜在的治疗靶点，也可用于构建多基因风险评分(PRS) 以根据变异的综合影响预测疾病易感性存在于个体中。然而，虽然准确测量个体的特征（称为表型）对 GWAS 至关重要，但它通常需要艰苦的专家管理和/或主观判断。

在“基于大规模机器学习的表型显着改善视神经乳头形态的基因组发现”中，我们展示了如何使用机器学习 (ML) 模型对医学成像数据进行分类可用于改进 GWAS。我们描述了如何针对表型训练模型以生成性状预测以及如何使用这些预测来识别新的遗传关联。然后，我们证明发现的新关联提高了 PRS 的准确性，并以青光眼为例，解剖眼部特征的改善与人类疾病有关。我们已在我们的Genomics Research GitHub 存储库上发布了模型训练代码及其使用的详细文档。

识别与眼部解剖特征相关的遗传变异

先前的工作表明，ML 模型可以识别眼部疾病、皮肤疾病和异常乳房 X 光检查结果，准确度接近或超过领域专家的最新方法。因为识别疾病是表型分析的一个子集，我们推断 ML 模型可以广泛用于提高 GWAS 表型分析的速度和质量。

为了测试这一点，我们选择了一个模型，该模型使用眼底图像来准确预测患者是否应该转诊进行青光眼评估。该模型使用眼底图像来预测视盘（视神经连接到视网膜的区域）和视杯（视盘中心的白色区域）的直径。这两个解剖特征的直径比（称为垂直杯盘比，或 VCDR）与青光眼风险密切相关。

file

我们应用这个模型来预测来自英国生物银行个人的所有眼底图像中的 VCDR ，这是世界上最大的数据集，可供全世界研究人员用于公共利益的健康相关研究，包含约 500,000 笔假名的广泛表型和遗传数据（英国生物银行的去标识化标准）个人。然后我们在这个数据集中执行了 GWAS 来识别与 VCDR 的基于模型的预测相关的遗传变异。

file

基于 ML 的 GWAS 确定了 156 个与 VCDR 相关的不同基因组区域。我们将这些结果与另一组对相同英国生物银行数据进行的 VCDR GWAS 进行了比较，Craig 等人。2020 年，专家们煞费苦心地为 VCDR 标记了所有图像。基于 ML 的 GWAS 复制了 Craig等人发现的 65 个关联中的 62 个。，这表明该模型准确地预测了 UK Biobank 图像中的 VCDR。此外，基于 ML 的 GWAS 发现了 93 个新的关联。

file

基于 ML 的 GWAS 改进了多基因模型预测

为了验证在基于 ML 的 GWAS 中发现的新关联具有生物学相关性，我们使用 Craig等人开发了独立的 PRS 。和基于 ML 的 GWAS 结果，并测试了它们在 UK Biobank 的一个子集以及一个完全独立的队列 ( EPIC-Norfolk ) 中预测人类专家标记的 VCDR 的能力。在两个数据集中，从基于 ML 的 GWAS 开发的 PRS 显示出比从专家标记方法构建的 PRS 更强的预测能力，提供强有力的证据表明基于 ML 的方法发现的新关联影响 VCDR 生物学，并表明改进的表型模型的准确性（即更准确的 VCDR 测量）转化为更强大的 GWAS。

file

作为第二个验证，因为我们知道 VCDR 与青光眼密切相关，我们还调查了基于 ML 的 PRS 是否与自我报告患有青光眼或具有暗示青光眼或青光眼治疗的医疗程序代码的个体相关. 我们发现使用我们的模型预测确定的 VCDR 的 PRS 也可以预测个体有青光眼迹象的概率。PRS 2.5 或更多标准偏差高于平均值的个体在该队列中患青光眼的可能性是其 3 倍以上。我们还观察到，来自基于 ML 的表型的 VCDR PRS 比从广泛的手动表型产生的 VCDR PRS 更能预测青光眼。

file