分享

Nat. Commun. | 可解释的多任务学习用于多模态生物数据分析

 DrugAI 2023-05-25 发布于韩国

今天为大家介绍的是来自Jie Ding和Jia Liu团队的一篇关于多模态生物数据分析的论文。目前生物技术可以同时从同一组细胞中测量多个高维度的模态(例如RNA、DNA可及性和蛋白质)。需要结合不同的分析任务来全面理解这些数据,推断基因调控如何驱动生物多样性和功能。然而,当前的分析方法只能执行单一任务,仅提供多模态数据的部分信息。为此,作者提出了UnitedNet,一个可解释的多任务深度神经网络,能够整合不同的任务来分析单细胞多模态数据。应用于各种多模态数据集后(例如Patch-seq、multiome ATAC +基因表达和空间转录组学),UnitedNet在多模态集成和跨模态预测方面展示出与最先进方法类似或更好的准确性。此外,通过用可解释的机器学习算法解析训练后的UnitedNet,我们可以直接量化基因表达与其他模态之间的关系,并具有细胞类型特异性。UnitedNet是一个全面的端到端框架,可广泛应用于单细胞多模态生物学。该框架有潜力促进跨转录组和其他模态的细胞类型特异性调控动力学的发现。

最近单细胞生物技术的进展使得同时测量同一细胞的基因表达和其他高维数据成为可能。这样的多模态组学数据可以直接全面了解细胞转录和功能过程。然而,针对单模态生物数据开发的分析方法不能直接应用于多模态数据。与单模态分析相比,最近的研究已经确定了更多的多模态分析任务,例如:(i)从不同模态中识别具有生物意义的细胞组,从而深入理解不同生物系统的细胞身份和功能;和(ii)在不同模态之间进行交叉预测,推断不能轻易或同时测量的细胞信息。此外,为同一类型的细胞生成的多模态数据提供发现基因表达与其他模态之间细胞类型特异性关系的机会,这有助于揭示有关生物状态的调节机制。需要一种方法来同时处理这些不同的任务并自动量化交叉模态相关性,以充分利用多模态数据集的潜力。

目前已经开发了多种多模态分析方法,以分别解决每个任务或识别跨模态特征之间的相关关系。对于联合群组识别任务,已经开发了多种多模态数据集成方法,将不同模态的测量结果融合成联合表示,然后用于无监督或有监督分类以识别细胞类型和状态或组织区域。对于跨模态预测任务,已经开发了基于自编码器的神经网络,用于在不同模态之间进行预测。对于跨模态相关性发现,Schema代表了最先进的多模态集成方法,可以识别用户定义的主模态中对其他模态重要的特征。与上述方法相比,一种能够在一个统一框架中解决所有任务、量化细胞类型特定的跨模态相关性,且在没有先验知识的情况下完成的方法可以简化数据分析,潜在地提高每个任务的性能,并有助于从单细胞多模态数据中获得生物学见解。然而,将多个任务合并到一个框架中可能存在以下两个挑战。首先,每种模态测量具有独特的统计特征(如异质性分布和噪声水平),需要不同的统计假设。虽然已经为不同模态开发了几种统计模型(如基因表达测量),但仍缺乏一种可以适应同时测量多种模态的未知分布的方法。其次,联合组识别和跨模态预测通常代表着不同的目标。具体来说,联合组识别的目标是惩罚错误的细胞分组,而跨模态预测的目标是最小化预测重建与实测之间的差距。因此,需要设计一种整合不同目标的策略,以避免性能下降。此外,当没有先验知识时,在某些细胞类型中找到基因表达和其他模态之间的相关关系仍然是一个主要挑战。如果简单地迭代所有可能的特征组合,则识别和量化共变特征集将对高维数据来说是计算上不可行的。需要一种有效的方法,首先确定来自多种模态的一组特征对于特定的感兴趣的生物学状态(例如,细胞类型)很重要,然后量化这些特征之间的关系。为此,文章介绍了一种可解释的多任务深度神经网络,用于解决多模态数据分析中的挑战。该网络具有编码器-解码器-鉴别器结构,通过交替执行两个任务来进行训练:联合组识别和跨模态预测。此外,作者应用可解释的机器学习来刨析训练好的网络,并量化基于细胞类型的跨模态特征关联性。结果表明,与其他最先进的方法相比,该方法在两个任务中均实现了更高的性能,实现了类似或更好的无监督和监督联合组识别和跨模态预测。

UnitedNet:一种可解释的多任务学习模型,用于多模态生物数据分析

图1

作者提出了一个可解释的多任务学习模型 UnitedNet,用于解决前文中提到的挑战。具体来说,对于联合组识别,UnitedNet 使用编码器获取模态特定的特征(低维表示),然后使用自适应加权方案将这些特征融合成共享潜在特征。然后,模型通过无监督或监督识别网络将组标签(如细胞类型)分配给每个细胞(图1b)。对于跨模态预测,UnitedNet 使用编码器获取源模态特定的特征,然后通过目标模态解码器预测目标模态的数据(图1b)。训练过程中引入鉴别器网络用以区分真实模态的数据和从预测重建的数据,以对抗编码器和解码器,从而提高跨模态预测的准确性。

UnitedNet使用一个综合损失函数进行训练,该损失函数由以下部分组成:(i)无监督聚类损失或监督分类损失,将不同簇中数据的特征分离,并拉紧相同簇中数据的特征,(ii) 对比学习损失,对齐同一细胞的不同模态特征并进一步将其与来自不同簇的其他细胞的各类模态特征分开,(iii)重构损失,将编码器和解码器的重构与原始数据进行比较,使潜在特征更好地表示细胞,(iv)预测损失,衡量交叉模态预测的性能,(v)鉴别器损失,区分目标模态的原始和重构数据,以及(vi)生成器损失,将解码的数据推向类似原始数据的方向(图1c)。在训练过程中,作者通过交替训练联合组识别和交叉模态预测任务来优化网络参数,这些任务在共享潜在空间中相互联系(图1d,e)。

此外,经过训练的UnitedNet结合了多模态群组识别和跨模态预测的信息,使用事后可解释的机器学习方法进行分析可以揭示细胞类型特异性的跨模态特征相关性,有助于从多模态生物数据中识别生物学知识。为了实现这一目标,作者应用了SHapley Additive exPlanations算法(SHAP),该算法常用于解释深度学习模型,来对经过训练的UnitedNet进行解剖。在可解释学习过程中,我们可以确定与特定群组相关性更高的特征(图1f),然后量化这些群组内的跨模态特征相关性(图1g)。

UnitedNet在多任务学习中展现出稳健且卓越的性能

图2

为了评估UnitedNet的性能,作者使用了一个包含四种模态(DNA、premRNA、mRNA和蛋白质)以及它们的真实标签的模拟数据集,该数据集来自于多组学生物过程模拟器Dyngen(图2a)。作者首先将UnitedNet的无监督联合群组识别性能与几种最先进的多模态整合方法进行了基准测试,包括Schema、MOFA、totalVI和WNN。作者应用Leiden聚类方法对这些方法生成的集成联合表示进行聚类,并使用单模态Leiden聚类作为性能基准。结果表明,与单模态Leiden聚类和其他最先进的方法相比,UnitedNet始终展现出类似或更好的无监督联合群组识别准确性(图2b)。接着,作者通过去除UnitedNet中的跨模态预测任务进行了消融分析,可以发现在没有多任务学习的情况下,无监督群组识别准确性下降(图2b)。消融分析评估了UnitedNet的跨模态预测性,。结果显示,去除多任务学习或判别器会降低网络的平均预测准确性(图2c)。综上所述,这些基准研究和消融分析证明了实施编码器-解码器-判别器网络结构和多任务学习方案在多模态数据分析中的有效性。

接下来,作者研究了为什么多任务学习可以提高两个任务的性能。基于之前在多模态和多任务学习中共享潜空间的设定(图1b),作者假设联合群组识别和跨模态预测任务的联合训练将通过共享的潜空间相互增强(图2a)。为了验证这一点,模拟的四种模态Dyngen数据集比较了单任务训练和UnitedNet的多任务训练所学习的共享潜在特征。结果显示,与单任务学习相比(图2e、f),多任务学习更好地对齐了模态特定的特征,并更好地在潜空间中分离了共享特征的聚类(图2d)。这些改进提高了在单任务学习模型上进行的群组识别效率和跨模态预测准确性。作者进一步量化了联合群组识别和跨模态预测任务在训练过程中的关系。结果显示,随着模态特定特征之间的距离减小,两个任务的性能都得到了提升(图2g、h)。总体而言,群组识别和跨模态预测任务的性能呈现出正相关关系(图2i)。

UnitedNet为多模态感知数据提供准确的三模态神经元类型识别和跨模态预测

图3

为了展示UnitedNet分析真实多模态生物数据的能力,作者将其应用于Patch-seq GABAergic神经元数据集,该数据集在相同的神经元中测量了形态学(M)、电生理学(E)和转录组学(T)信息。UnitedNet允许同时进行无监督的联合群组识别和跨模态预测,分别用于识别细胞类型和预测特定于模态的特征(图3a)。

作者对形态学-电生理学-转录组学(MET)数据集进行了同时的无监督联合群组识别分析和跨模态预测。通过直接融合这三种模态并为每个细胞分配标签,UnitedNet在识别cellMET类型方面表现出高度一致性(ARI = 0.82)和并且主要的MET类型和细微的MET类型之间存在大致对角的对应关系(ARI = 0.41)(图3b-d)。在跨模态预测任务中,先前的方法(如耦合自编码器)在两种模态之间的预测方面存在局限性,因为它们使用了设计用于两种模态之间的对齐损失函数,无法直接应用于这个三模态数据集。相比之下,UnitedNet不需要显式的模态对齐损失函数,因此可以接受多个模态作为输入。UnitedNet能够以高保真度预测三种模态之间的各个测量结果(图3e)。作者进一步检查了UnitedNet学习到的三种模态的特征空间,并发现转录组学和电生理学模态之间存在很强的对齐,这与先前的研究结果一致。此外,还可以发现形态学模态与转录组学和电生理学模态也存在对齐,但对于Pvalb神经元来说,对齐程度相对较低。这种相对较低的对齐程度进一步支持了先前的研究发现,即尽管Pvalb神经元具有相似的基因表达谱,但它们在电生理上具有一致性而在形态学上具有多样性。

UnitedNet揭示了特定于神经元类型的跨模态特征之间的相关性关系

图4

然后,作者使用可解释学习方法SHAP来解剖经过训练的UnitedNet,以指示在Patch-seq GABAergic神经元数据集中特征的相关性。具体而言,使用SHAP为每个输入特征分配重要性指标,也称为Shapley值,用以评价其相对于某个给定的模型输出的相关性,如特定识别的细胞群组或某个特征的跨模态预测。根据定义,具有较高Shapley值的特征具有较大的影响力。因此,作者选择基于Shapley值排名的特征。接下来,作者对Shapley值和这些SHAP选定的特征的有效性进行了定量评估。考虑到先前研究鉴定的神经元类型特定特征预计与生物相关性更高,作者假设这些特征的Shapley值会高于随机选择的特征。实验结果支持了这个假设,因为可以发现在Patch-seq GABAergic神经元数据集中,与随机选择的特征相比,标记基因的Shapley值更高。

此外,作者使用Shapley值作为标记基因的预测因子。结果显示,在Patch-seq GABAergic神经元数据集中,与随机选择的特征相比,标记特征具有更高的可预测性(标记特征准确性=0.72±0.07,平均值±标准差;随机选择的特征准确性=0.51±0.03,平均值±标准差,对于5个细胞类型* 3个模态)。这些结果证明了Shapley值在预测多模态生物学中的特定群组特征方面的有效性。然后,作者以Pvalb神经元类型为例,定性验证了SHAP选定的相关性(图4)。对于群组到特征的相关性,SHAP成功地选择了一组基因、电生理特征和形态学特征,这些特征在Pvalb神经元中具有差异表达(图4a、d-f)。

结论

作者证明了UnitedNet可以有效地整合多个任务,如联合群组识别和跨模态预测任务,并通过可解释的多任务学习实现跨模态相关性发现,用于多模态数据分析。研究通过广泛的消融和基准测试研究,验证了多任务学习在无监督和监督设置下可以实现与单任务学习、单模态分析和其他最先进方法相似甚至更好的性能。UnitedNet适用于各种单细胞多模态生物学数据集,包括但不限于多模态模拟数据、多感知数据、多组学数据和空间组学数据。此外,经过训练的UnitedNet将多模态群组识别和跨模态预测信息整合在一起,可以通过可解释的学习方法进行解剖,从多模态生物学数据中潜在地发现细胞类型特定的跨模态特征之间的相关性等生物学见解。

参考资料

Tang, X., Zhang, J., He, Y. et al. Explainable multi-task learning for multi-modality biological data analysis. Nat Commun 14, 2546 (2023). https:///10.1038/s41467-023-37477-x

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多