分享

Nat. Mach. Intell. | 多模态数据融合在深度学习中用于癌症生物标志物的发现

 DrugAI 2023-04-19 发布于韩国

今天为大家介绍的是来自斯坦福大学研究团队的一篇讨论多模态数据在癌症标志物发现应用的综述论文。技术进步让我们能够利用多种高维、高通量、多尺度的生物医学数据从多个角度研究患者,尤其在肿瘤学领域产生了大量数据。深度学推进了这些数据的分析,但目前的方法多集中在单一数据类型上,难以完全捕捉疾病的异质性。因此,我们需要开发多模态融合方法,以更好地个性化医疗护理,并探究多因素疾病中的生物学过程。然而,现在仍面临着数据不足和缺乏临床验证和解释方法等挑战,文章讨论了这些挑战,并且探讨利用深度学习来解决数据稀缺性,多模态可解释性以及数据集标准化等问题的机会。

近几十年来,技术创新已经改变了医疗保健领域,随着临床数据不断增加,支持诊断和治疗。在老年慢性疾病如癌症等的背景下,医学正在向多模态患者数据收集方向发展。整合不同的数据模态可以增强我们对癌症的理解,并为精准医学铺平道路。我们正逐渐从传统的“一刀切”的方法转向更有针对性的测试和治疗。尽管第一个获得美国食品药品监督管理局(FDA)认可的伴随诊断试剂仍依赖于简单的分子方法,并且大多数试剂仅关注单个感兴趣的基因,然而,下一代测序(NGS)的进步现在允许进行多靶点伴随诊断试验,这种方法越来越普遍。持续的成本降低使得同时对数千个基因组区域进行分析成为可能,多靶点面板很快就可以以类似于单独测试五到十个靶点的价格运行。多靶点测试不仅节省时间和组织,还有可能识别复杂的基因相互作用,从而增强我们对肿瘤生物学的理解。虽然NGS仍在全面推广,但第三波技术已经兴起,包括单分子、长读取和实时测序。Pacific Biosciences和Oxford Nanopore Technologies使得以前所未有的分辨率和速度进行基因组组装和探索成为可能。这种技术最近已经在临床环境中用于诊断罕见遗传病,周转时间仅为8小时。

同时,组织病理学和放射学是肿瘤管理中的关键工具。组织病理学评估是肿瘤诊断的金标准,它使研究组织结构成为可能。最近,全切片成像技术的显著进展导致从传统的组织病理学方法转向数字病理学。数字病理学是将常规玻片数字化为虚拟图像的过程,有许多实用优势。另一种方法是放射学成像方法,它是一种非侵入性的肿瘤病变检测和分类方法,其计算机断层扫描和磁共振成像技术在生成三维图像方面非常有用。

人工智能和机器学习技术的不断改进在肿瘤成像领域产生了重大影响,特别是在诊断和预测方面。目前,组织病理学玻片的注释依赖于专业病理学家。利用基于图像的人工智能应用程序不仅可以减轻病理学家的工作量,而且还有潜力进行更有效、可重复和准确的空间分析,捕捉超出视觉感知的信息。放射组学和病理组学是专注于放射学或组织病理数字图像的定量分析的领域,旨在提取可用于临床决策制定的定量特征。深度学习现在可用于自动化的高通量特征提取,能够发现未知的特征和关系,提供生物学见解,并改善疾病的特征化。然而,人工智能算法的训练、测试和验证需要大规模的数据集,而目前因伦理限制和临床图像的注释难度,大多数研究只能使用具有有限标签数据的小型数据进行训练和测试。近年来,AI在医疗应用中的整合逐渐增加。然而,到目前为止,大多数方法仅聚焦于一种特定的数据类型,导致整合互补数据类型的方法进展缓慢,仍有许多关于多模式整合的技术、分析和临床方面的问题。为了推进精准肿瘤学,医疗AI不仅应该提供有关癌症发病率和肿瘤生长的信息,还必须识别出考虑治疗相关的副作用、社会经济因素和护理目标等因素。因此,只有将复杂和多样的多模式数据合并起来,才能实现精准医学。现在正在收集多模式数据,为生物标志物发现提供资源。对于癌症,预后生物标志物和预测性生物标志物都是有意义的。预后生物标志物提供有关患者诊断和整体结局的信息,而预测性生物标志物则提供有关治疗决策和反应的信息。

作者认为,常规收集的医疗数据源,包括电子病历、分子数据、数字病理学和影像学,在诊断和治疗癌症患者时并未充分利用,因为这些数据通常是孤立地研究,而不是以一种综合的方式研究。当这些数据模式结合在一起时(如上图所示),它们提供了丰富的互补、冗余和和谐信息,可以被利用来更好地分层患者人群并提供个性化护理。作者随后讨论多模态生物标志物发现的挑战和机遇,包括数据融合策略,以及解决数据稀疏性和匮乏性、数据编排和模型可解释性的方法。

在肿瘤学中需要多模态数据融合

尽管在癌症诊断治疗方面已经做出了很大的改进,但癌症预后仍然令人沮丧。基于单一模态的预测模型提供了有限的疾病异质性视图,可能无法为患者分层并捕捉响应治疗的全部事件。当前,生物标志物发现主要基于分子数据。在临床应用中越来越多地实施基因组学和蛋白质组学技术,导致分子数据的可用性增加,但也增加了其复杂性。像The Cancer Genome Atlas和Genomic Data Commons have这样的大型联合体已经收集和标准化了大量数据集,积累了以PB为单位的基因组、表达和蛋白质组数据。由于肿瘤的异质性、采样偏差和结果的解释等因素,测序检测的开发、验证和常规实施的障碍仍然存在。临床接受的性能要求通常也是癌症特异性的,取决于检测用途的具体目的(例如,诊断、分层、药物反应或治疗决策)。尽管分子数据至关重要,但它抛弃了组织结构、空间和形态信息。

虽然分辨率低于基因组信息,但数字病理学和影像学提供了正交和互补信息。数字病理学通过提供有关细胞和形态学结构的视觉化数据,供病理学家解释,并可通过图像分析和空间统计学提供有关空间异质性的关键信息。同样,磁共振成像或计算机断层扫描等影像提供了组织形态学和三维结构的视觉数据。整合覆盖患者不同层次的数据模态具有捕捉协同信号的潜力,这些信号可以确定对临床预测至关重要的患者内部和外部异质性。例如,2016年世界卫生组织关于中枢神经系统肿瘤的分类建议重新审视了弥漫性胶质瘤的分类准则,推荐将组织病理学诊断与分子标记相结合,因为每种模态单独使用都不足以解释患者结局变化。

生物标志物发现的多模态数据融合策略

精准医学的时代要求强大的计算技术来处理高维度的多模态患者数据。每种数据来源在其创建、分析和解释方面都有其优势和局限性。有效的融合方法必须整合高维的多模态生物医学数据,包括图像和文本等。将原始数据表示为可操作的格式仍然具有挑战性,因为机器学习方法不容易接受未向量化的数据。因此,多模态表示面临许多困难。不同模态测量不匹配的特征,具有不同的分布和维数。此外,并非所有模态和观察结果具有相同的置信度、噪声或信息质量。多模态融合通常会涉及处理来源于非常少的样本,但具有许多跨模态的特征。通常需要先进行高级特征提取方法,以减少维数同时保留大部分显著的生物信号,然后再进行数据融合过程。有意义的特征描述是任何模型的关键骨干。

要做出的主要决策是数据融合在何种特定的建模阶段进行:(1)早期,(2)中间,或(3)晚期。早期融合的特点是连接不同数据模态的特征向量,只需要训练一个单一的模型。相反,晚期融合基于分别在每个数据模态上开发模型,并使用特定的平均,加权或其他机制来整合它们的单个预测。晚期融合不仅允许在每个模态上使用不同的、通常更合适的模型,而且更容易处理一些数据中缺少某些模态的情况。但是,晚期阶段的融合忽略了不同模态之间可能存在的协同效应。介于早期和晚期融合之间的任何方法都被定义为中间。中间融合不会合并输入数据,也不会为每个模态开发单独的模型,而是涉及开发推理算法来生成保留每个单独模态信号和属性的联合多模态低级特征表示。目前没有明确的证据表明哪种融合策略更优,选择特定方法通常是根据可用数据和任务的经验性基础。

患者分层中多模态生物标志物的进展

多组学数据融合:尽管单一的组学技术可以提供有关肿瘤的信息,但仅一个技术不能完全捕捉潜在的生物学特征。大量多组学癌症数据的收集促进了多组学数据的融合,以充分把握肿瘤的特征,并提出了多个生存和风险预测模型。此外,对于治疗反应和药物组合预测,多组学机器学习方法已经证明其价值优于传统的单模态模型。虽然现在存在各种多组学融合策略,但一个单一的方法并不适用于所有的研究问题和数据类型,有时添加更多的组学层甚至会对性能产生负面影响。每种策略都有其优点和缺点,对于特定的目的和可用的数据类型,需要仔细选择有效的方法。

多尺度数据融合:类似于多组学数据融合,多尺度数据融合也被广泛探索。例如,Cheerla和Gevaert使用了一种中间融合策略来整合组织病理学、临床和表达数据,以预测多种癌症患者的生存率。同样,另一项研究提出了一种后期融合策略来分类肺癌。使用RNA测序、微型RNA测序等数据,他们取得了比每个单独模态更好的表现。有一些例子显示了放射学在进一步细化患者分层方面的潜力,然而,由于其高维度和计算需求,到目前为止大多数研究都避免了其相关的讨论。

影像基因组学和放射基因组学:近年来,分子肿瘤信息已经成为癌症预后和治疗决策中使用的内容。有趣的是,多项研究表明,从医学影像中得出的表型可以作为分子表型(如肺癌中的表皮生长因子受体突变)的代理或生物标志物。这一发现立即引发了一个新兴领域,即“放射基因组学”,即直接将影像特征与潜在的分子特性联系起来的研究。例如,有研究使用磁共振成像表型定义了与分子通路活性相关的胶质母细胞瘤亚型。

多模态融合的挑战和未来发展

使用多模态数据模型可能是推进精准肿瘤医学的唯一途径,但实现发掘其全面潜力仍然存在许多挑战。虽然数据可用性是多模态数据融合的主要推动因素,但它也构成了主要障碍。深度学习需要大量的数据,而生物医学数据的稀疏性和稀缺性都带来了严重的挑战。在临床实践中,患者往往会缺少不同类型的数据,因为不是所有患者都可能具有所有模态,这可能是由于成本、保险覆盖、材料可用性以及缺乏系统收集程序等导致的。为了在肿瘤学领域发挥作用,方法需要能够处理不同模态缺失的模式。幸运的是,各种插值、填充和矩阵完成算法已成功应用于临床数据。此外,随着深度学习技术的最近成功,已经出现了专门的融合方法,允许处理不完整或缺失的模态。这些方法可以处理缺失模态的联合表示,如使用基于模型的插值技术、填充、模态权重共享等技术。

然而,这些努力推进的过程中存在两个主要障碍。首先,每个患者产生和存储的观测数据通常非常多,但不同类型患者的典型规模相对较小。新兴的证据突出表明,这些类型往往存在偏见,特别是代表了具有连续医疗保健和高水平患者参与度的较高社会经济地位的患者。将分析限制在具有完整数据的患者身上会导致模型过拟合、偏见和泛化能力差。其次,缺乏具有匹配的多模态数据,主要原因是注释癌症数据集需要大量的人力,再加上隐私问题。幸运的是,深度学习模型也开始被开发出来。一种常用的方法是数据增强,包括基本的数据变换以及合成数据的生成,但其他策略,如半监督学习、主动学习、迁移学习和自动注释,也显示出克服标记数据缺乏的希望。

除此之外,深度学习模型在临床应用中面临的一个关键障碍是缺乏明确定义的模型解释方法。虽然其可以从复杂数据中提取预测特征,但这些特征通常是抽象的,不明确其临床相关性。为了在临床决策中有用,模型需要经过广泛的测试,是可解释的,并且其预测需要伴随置信度或不确定性度量。只有这样,它们才会在临床实践中具有相关性并被采纳。

数据的标准化也极其重要。标准化将导致更加一致和完整的数据集,这些数据集更容易处理,更容易与其他数据来源融合,并且本身将更加可解释。TCGA可能是最知名且最常用的资源,但许多其他倡议正在进行中,以结构化地捕获肿瘤学的临床、基因组学、成像和病理数据,例如癌症成像档案和基因组学病理学成像收集。这些努力共同旨在使用社区接受的标准以FAIR(可发现、可访问、可互操作和可重用)的方式处理、分析和共享数据。这不仅有助于提高再现性和透明度,还鼓励重复利用和优化现有的工作。

总的来说,通过在更大的独立数据中对成功模型进行严格的临床验证,我们最终的目标是推进精准肿瘤医学。到目前为止,大多数工作都集中在多模态癌症生物标志物上,以改进风险分层,但是通过专门的策略,多模态数据融合也可以协助治疗决策或药物反应。然而,实际患者的结果往往相对于临床试验而言滞后,因此缺乏随访数据阻碍了对功效的评估。幸运的是,研究人员正在努力以自动化可扩展的方式利用来自临床笔记的自然语言方法捕捉治疗反应。通过精心的研究设计、持续改进数据收集和共享方法以及疾病监测技术的成本和/或可用性降低,深度学习模型在这个方向上呈现出很有前途的选择,从而进一步加速精准肿瘤医学的发展。

参考资料

Steyaert, S., Pizurica, M., Nagaraj, D. et al. Multimodal data fusion for cancer biomarker discovery with deep learning. Nat Mach Intell (2023). 

https:///10.1038/s42256-023-00633-5

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多