【原】热点追踪 | AI在GWAS功能/转化研究中的应用

尐尐呅 2023-07-03 发布于湖北

展开全文

AI & GWAS

解码疾病易感性是人类遗传学和精准医学的核心问题。人工智能(AI)技术已经在解读复杂的功能数据集并为GWAS发现提供新的生物学洞见方面展示出了可观的前景。近日，《Cell Genomics》发表perspective文章，介绍了AI方法应用于GWAS功能和转化研究的进展、挑战及建议。

虽然GWAS已经发现了数千个与疾病相关的位点，但其中相当一部分的分子机制仍需探究。GWAS后续的逻辑步骤是解释这些遗传关联，以了解疾病的病因(GWAS功能研究)，并将这些知识转化为患者的临床益处(GWAS转化研究)。尽管使用功能基因组学的各种数据集和方法已经被开发出来以促进这些研究，但由于数据的异质性、多样性和高维度，仍然存在重大的挑战。人工智能 (AI) 技术可用于应对处理多样化和异构数据的这些挑战。

AI技术驱动GWAS功能研究

解码非编码变异的影响

早期的AI成果之一包括深度学习方法 DeepBind，它可以预测DNA和RNA结合蛋白的序列特异性，与此前利用广泛生物学知识开发的方法相比，DeepBind可以发现调控基序并解释遗传变异的影响。最近基于AI 的开发使DNA序列能够映射到整个基因组中可解释的调控类别，这个名为Sei的深度学习模型，经过训练可以预测超过20,000个特征。通过将全基因组预测聚类并定义为40个调控类别（例如启动子、细胞类型特异性增强子），Sei可以预测任何感兴趣的序列或变异的影响，包括之前未在GWAS中研究过的那些。这些示例强调了基于人工智能的方法有能力使用复杂和多维的数据集，以更可解释和可扩展的方式预测非编码GWAS变异的影响。

将变异与基因联系起来

分子QTL或染色质相互作用方法已被用于将变异与它们调节的靶基因联系起来，但它们通常提供互补或不一致的结果，因此准确权衡这些复杂性以达成共识是具有挑战性的。为了解决这个问题，Open Targets的研究人员开发了一个系统框架，用于整合GWAS和功能数据，并开发机器学习模型以识别跨GWAS位点的目标基因。具体而言，他们在进行精细定位和共定位分析方面建立了统一的流程，并将其与GWAS和其他功能数据整合，从而在基因座水平上产生了四个主要特征类别：计算机致病性预测、分子QTL的共定位、染色质相互作用，以及通过精细映射概率加权的可信集变异的基因距离。

解码细胞类型特异性并预测下游通路

AI技术已经被用来处理单细胞数据集并解码GWAS发现的细胞类型特异性。例如，通过对代表13种人类视网膜细胞类型的50,000多个细胞进行转座酶可及性染色质测序（ATAC-seq）的单细胞检测，训练了一个深度学习模型，可以预测每种细胞类型特异的参考和替代等位基因之间染色质可及性的碱基差异。

基于机器学习的流程（例如弹性网络回归）被证明可以通过将单细胞多模式数据与GWAS变异相结合来识别细胞类型特异性GRN和细胞类型特异的疾病基因，这改进了临床表型预测。深度卷积神经网络也被用于推断基因-基因关系和疾病因果关系。这种方法使用来自复杂单细胞数据的基因表达水平，将其转换为2D直方图的图像，作为深度学习过程的输入，这在预测TF目标基因和路径内的因果关系（方向）方面优于以前的方法。这些研究展示了机器学习算法在处理单细胞数据集、表征GWAS风险位点及其相互作用和下游途径方面的优点。

GWAS转化研究中即将出现的突破性进展

药物再利用的候选靶标

PandaOmics是一个使用深度学习模型以候选药物在5年内进入临床试验第一阶段可能性的形式预测药物靶点潜力的平台。他们的模型包括“组学评分”和“文本评分”。组学评分考虑了所有可用的遗传数据集，如GWAS发现和MR或TWAS确定的基因疾病关联。文本评分基于文献、授权和专利搜索。这些模型已被应用于识别肌萎缩侧索硬化症的候选药物靶点。Open targets开发的另一个平台将来自开放获取表达谱的组织特异性、来自GO的生物学知识和蛋白质-蛋白质相互作用网络集成到机器学习模型中。这些研究表明，人工智能在将多维知识转化为GWAS知情的药物优先级方面具有价值。

PRS

PRS的辨别能力受到复杂疾病的多因素影响，为了解决这个问题，针对心血管疾病风险开发了一个基于神经网络的模型，该模型集成了多基因和临床预测因子。基于神经网络的模型使用来自不同队列的29个心血管危险因素和6个PRS的特征作为输入进行训练。然后使用来自UK Biobank队列参与者的各个评估中心的空间分离样本验证该模型，以预测10年内主要不良心脏事件的发生。与在相同数据上训练的现有模型和Cox比例风险模型相比，神经网络模型更好地整合了多基因和临床预测因子并提高了预测性能。该模型是在UK Biobank队列，尚未在完全独立的队列中进行评估。

与PRS相关的第二个挑战是可转移性差，可转移性定义为模型对独立数据集的预测准确性。在PRS的背景下，可转移性差是指从一个人群中的GWAS生成的PRS在其他人群中表现不佳的情况。未来使用人工智能和其他功能数据组合的研究有望提高PRS在人群中的可转移性。

AI 应用于GWAS功能/转化研究的挑战及建议

实际训练数据稀缺

GWAS功能和转化研究中的大多数最先进的方法都依赖于受监督的AI模型，但这些尝试因缺乏足够规模的用于训练和验证的实际数据集而受到阻碍。

建议除了不断努力改进实际数据集外，还可以考虑使用一些基于人工智能的分析方法来缓解这个问题。基于人工智能的工具已经显示出它们在处理越来越多的非结构化信息文献方面的潜力。在数据搜索方面，基于自然语言处理算法的工具可以从文献中自动识别和提取具有相关实体（例如等位基因）的遗传变异信息。该工具呈现出最先进的性能，其变异识别的 F-measure超过90%，现在可用于整个PubMed和PMC数据集。此外，已经开发了基于AI的工具来改进数据管理，例如在管理最全面的GWAS数据库NHGRI-EBI GWAS目录方面，基于深度学习方法的精度是当前基于查询方法的2.99倍。这种深度学习方法可以有效地识别相关文献，从而显著减少手动管理过程中需要审查的论文数量。

解决实际训练数据集不足挑战的另一种方法是使用无标签策略。其中一个例子是使用人在环路人工智能方法，它可以使用相对较小规模的现有真值标签来训练人工智能模型，以生成大规模新标签。经过训练的模型可以通过人工对其新生成的标签进行校正过程来进一步校准，最终可以生成具有高置信度的标签。这种human-in-the-loop策略主要应用于免疫组化中苏木精和伊红染色数据的标签生成。或者，生成模型可以用于基于相关资源的先验知识合成带有标签的新数据。考虑到现有编码变异致病性标签的稀疏性和异质性，在没有训练任何现有标签的情况下开发了一个深度生成模型。假设来自自然序列的进化约束反映了变异体的致病性倾向，生成模型可以学习序列变异在物种间的分布，从而通过将每个变异体归入集群（良性、不确定或致病性）来近似判断其致病性的可能性。预计无标签的生成策略可以应用于GWAS的功能和转化研究，以解决基础真值标签有限的问题。

透明度和人工智能“黑盒问题”

AI 算法（例如深度神经网络）被认为是黑匣子，可以在不考虑内部原理（即“端到端”策略）的情况下预测输入的输出，从而为 GWAS功能提供有限的机制见解和转化研究。神经网络中的参数在训练期间受到广泛的数学优化，导致神经连接的密集网络既不依赖于实际系统也不基于人类推理。

建议 解决“黑盒问题”的一种方法是使用参数较少的模型并选择最少的特征集进行预测。例如，Open Targets小组的研究使用带有二元逻辑学习目标函数的XGBoost梯度增强分类器来训练他们的变异到基因预测模型，通过每次在模型训练中留下一个特征，进行留一进/留一出分析，以确定单个特征对输出的贡献，从而确定预测目标基因的几个关键特征。应当指出，这种结构简单的模型可能无法充分反映人类疾病遗传易感性的复杂性，并可能导致信息的丢失。另一个想法是使用具有层次分辨率的模型，其内部逻辑自然地适合生物系统和深度神经网络，一个值得注意的例子是DCell，它是一个具有层次结构的可见神经网络，可根据基因型预测真核细胞(出芽酵母)的细胞生长。具体来说，这个神经网络中的神经元被组织成库，每个库都映射到一个已知的细胞成分。由组合基因破坏(输入)引起的细胞生长(输出)的预测变化可以通过检查潜在细胞成分的功能状态(活跃或不活跃)来解释，该小组采用了类似的策略来预测癌细胞的药物反应，其中使用可解释的深度学习模型将模型的内部工作原理与已知的人类细胞生物学层次结构相结合。Nguyen等人引入了一种可解释的深度学习工具Varmole，该工具将基因型和基因表达数据作为预测疾病表型的输入，将QTL和GRN的先验生物学知识嵌入到深度学习网络中，从而能够对遗传变异和疾病表型预测基础基因进行优先排序。Wang等人开发了深层结构表型网络(deep structured phenotype network, DSPN)，在基因型预测和表型预测之间增加了一系列中间层，这些中间层可能与特定基因(例如，表达水平或染色质状态)或基因群(例如，共表达模块)有关，用于从基因型到性状的机制解释。值得注意的是，Varmole和DSPN的发展都得益于PsychENCODE联盟的大规模和全面的功能基因组学资源，包括统一处理的大量脑组织转录组、染色质、基因型、Hi-C和单细胞转录组数据。此外，具有分层分辨率的模型可能需要大量的计算资源和专业知识，并且可能不适用于所有类型的遗传数据。这些研究提供了解释人工智能模型的有希望的示例，以提供对人类疾病遗传易感性的机制见解。

伦理问题和偏见

虽然人工智能的应用可能会在进行GWAS后续研究时实现更高的准确性和更好的性能，但随着该领域的发展，它也伴随着一系列需要解决的伦理问题和偏见。

建议 为了减少基于人工智能的GWAS后续研究中的偏见和不公正，应该有意识地将代表不同人群的功能基因组学和临床数据集纳入训练深度学习模型。这一过程当然应该伴随着生物医学研究界生成更多样化的基因组学和医学数据库/研究，准确地代表医学应该服务的整个人群。为此，技术驱动的解决方案，如使用可穿戴设备的远程数字临床试验，没有临床地点，可能有助于减少以前代表性不足的人群的参与障碍。在算法层面，已经开发了增强公平性的人工智能方法。例如，多目标学习被提出来，通过同时优化和自动平衡准确性和多种公平性措施来缓解公平性问题。关于隐私和数据保护问题，除了实施人工智能特定的健康数据保护政策，还可以考虑一些技术解决方案。例如，联合学习可以允许在多中心合作的情况下进行模型训练而不共享原始数据，每个中心进行单独的训练，模型的更新通过一个可信的中央服务器进行共享和汇总。也可以考虑其他方法，如差分隐私（涉及在保持数据集的全局模式的同时随机破坏个人级数据）和同态加密（使用加密的输入数据），也可以考虑并与其他解决方案相结合。因此，下一代隐私保护技术（如隐私保护的联合学习），备受期待。

在AI模型能够巩固其在临床有效性中的作用之前，需要努力解决性能、通用性和可解释性以及伦理问题方面的若干挑战。需要注意的是，这些模型大多是最近开发的，没有积累足够的时间应用于不同的场景，它们的价值需要经过时间检验。新的人工智能策略，包括生成模型和可解释的深度学习，可能是释放GWAS在为复杂的人类疾病提供生物学见解和健康益处方面的全部潜力的关键。

建议对技术细节感兴趣的小伙伴参考文献原文~

对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出，互相交流学习！

多优质内容请点击下方名片，关注“国家基因库大数据平台”和“深圳国家基因库”公众号。

参考文献

Long E, Wan P, Chen Q, et al. From function to translation: Decoding genetic susceptibility to human diseases via artificial intelligence[J]. Cell Genomics, 2023.