GWAS功能和转化研究中的大多数最先进的方法都依赖于受监督的AI模型,但这些尝试因缺乏足够规模的用于训练和验证的实际数据集而受到阻碍。
建议 除了不断努力改进实际数据集外,还可以考虑使用一些基于人工智能的分析方法来缓解这个问题。基于人工智能的工具已经显示出它们在处理越来越多的非结构化信息文献方面的潜力。在数据搜索方面,基于自然语言处理算法的工具可以从文献中自动识别和提取具有相关实体(例如等位基因)的遗传变异信息。该工具呈现出最先进的性能,其变异识别的 F-measure超过90%,现在可用于整个PubMed和PMC数据集。此外,已经开发了基于AI的工具来改进数据管理,例如在管理最全面的GWAS数据库NHGRI-EBI GWAS目录方面,基于深度学习方法的精度是当前基于查询方法的2.99倍。这种深度学习方法可以有效地识别相关文献,从而显著减少手动管理过程中需要审查的论文数量。
解决实际训练数据集不足挑战的另一种方法是使用无标签策略。其中一个例子是使用人在环路人工智能方法,它可以使用相对较小规模的现有真值标签来训练人工智能模型,以生成大规模新标签。经过训练的模型可以通过人工对其新生成的标签进行校正过程来进一步校准,最终可以生成具有高置信度的标签。这种human-in-the-loop策略主要应用于免疫组化中苏木精和伊红染色数据的标签生成。或者,生成模型可以用于基于相关资源的先验知识合成带有标签的新数据。考虑到现有编码变异致病性标签的稀疏性和异质性,在没有训练任何现有标签的情况下开发了一个深度生成模型。假设来自自然序列的进化约束反映了变异体的致病性倾向,生成模型可以学习序列变异在物种间的分布,从而通过将每个变异体归入集群(良性、不确定或致病性)来近似判断其致病性的可能性。预计无标签的生成策略可以应用于GWAS的功能和转化研究,以解决基础真值标签有限的问题。
AI 算法(例如深度神经网络)被认为是黑匣子,可以在不考虑内部原理(即“端到端”策略)的情况下预测输入的输出,从而为 GWAS功能提供有限的机制见解和转化研究。神经网络中的参数在训练期间受到广泛的数学优化,导致神经连接的密集网络既不依赖于实际系统也不基于人类推理。
建议 解决“黑盒问题”的一种方法是使用参数较少的模型并选择最少的特征集进行预测。例如,Open Targets小组的研究使用带有二元逻辑学习目标函数的XGBoost梯度增强分类器来训练他们的变异到基因预测模型,通过每次在模型训练中留下一个特征,进行留一进/留一出分析,以确定单个特征对输出的贡献,从而确定预测目标基因的几个关键特征。应当指出,这种结构简单的模型可能无法充分反映人类疾病遗传易感性的复杂性,并可能导致信息的丢失。另一个想法是使用具有层次分辨率的模型,其内部逻辑自然地适合生物系统和深度神经网络,一个值得注意的例子是DCell,它是一个具有层次结构的可见神经网络,可根据基因型预测真核细胞(出芽酵母)的细胞生长。具体来说,这个神经网络中的神经元被组织成库,每个库都映射到一个已知的细胞成分。由组合基因破坏(输入)引起的细胞生长(输出)的预测变化可以通过检查潜在细胞成分的功能状态(活跃或不活跃)来解释,该小组采用了类似的策略来预测癌细胞的药物反应,其中使用可解释的深度学习模型将模型的内部工作原理与已知的人类细胞生物学层次结构相结合。Nguyen等人引入了一种可解释的深度学习工具Varmole,该工具将基因型和基因表达数据作为预测疾病表型的输入,将QTL和GRN的先验生物学知识嵌入到深度学习网络中,从而能够对遗传变异和疾病表型预测基础基因进行优先排序。Wang等人开发了深层结构表型网络(deep structured phenotype network, DSPN),在基因型预测和表型预测之间增加了一系列中间层,这些中间层可能与特定基因(例如,表达水平或染色质状态)或基因群(例如,共表达模块)有关,用于从基因型到性状的机制解释。值得注意的是,Varmole和DSPN的发展都得益于PsychENCODE联盟的大规模和全面的功能基因组学资源,包括统一处理的大量脑组织转录组、染色质、基因型、Hi-C和单细胞转录组数据。此外,具有分层分辨率的模型可能需要大量的计算资源和专业知识,并且可能不适用于所有类型的遗传数据。这些研究提供了解释人工智能模型的有希望的示例,以提供对人类疾病遗传易感性的机制见解。
虽然人工智能的应用可能会在进行GWAS后续研究时实现更高的准确性和更好的性能,但随着该领域的发展,它也伴随着一系列需要解决的伦理问题和偏见。
建议 为了减少基于人工智能的GWAS后续研究中的偏见和不公正,应该有意识地将代表不同人群的功能基因组学和临床数据集纳入训练深度学习模型。这一过程当然应该伴随着生物医学研究界生成更多样化的基因组学和医学数据库/研究,准确地代表医学应该服务的整个人群。为此,技术驱动的解决方案,如使用可穿戴设备的远程数字临床试验,没有临床地点,可能有助于减少以前代表性不足的人群的参与障碍。在算法层面,已经开发了增强公平性的人工智能方法。例如,多目标学习被提出来,通过同时优化和自动平衡准确性和多种公平性措施来缓解公平性问题。关于隐私和数据保护问题,除了实施人工智能特定的健康数据保护政策,还可以考虑一些技术解决方案。例如,联合学习可以允许在多中心合作的情况下进行模型训练而不共享原始数据,每个中心进行单独的训练,模型的更新通过一个可信的中央服务器进行共享和汇总。也可以考虑其他方法,如差分隐私(涉及在保持数据集的全局模式的同时随机破坏个人级数据)和同态加密(使用加密的输入数据),也可以考虑并与其他解决方案相结合。因此,下一代隐私保护技术(如隐私保护的联合学习),备受期待。