分享

Bioinformatics|Hi-GeoMVP:用于药物反应预测的分层几何增强深度学习模型

 智药邦 2024-05-27 发布于上海

2024年4月13日,新加坡国立大学Yurui Chen等人在Bioinformatics上发表文章Hi-GeoMVP: a hierarchical geometry-enhanced deep learning model for drug response prediction。

作者提出了一种新的药物反应预测深度学习方法,将基于分层几何增强的多视图深度学习模型用于药物反应预测(Hierarchical Geometry enhanced Multi View deep learning model for drug response Prediction, Hi-GeoMVP)。模型利用多组学数据综合分层药物表示,利用图神经网络和变分自编码器进行详细的药物和细胞系表示,采用多任务学习进行更好的预测,利用二维和三维分子表示捕获全面的药物信息。实验表明模型超越了现有方法,体现了模型在药物反应预测方面的能力。

背景

个性化的疾病治疗需要准确的药物反应预测。现有的深度学习方法很有前景,但要实现精准医疗的目的,还需要更高的准确性。为了提高药物反应预测精度,不仅可以利用药物的拓扑信息(即药物复杂网络的关联信息),还可以利用药物的几何信息(即药物的化学几何结构信息)。

方法

如图1所示,Hi-GeoMVP将药物的三维化学结构、分子指纹(表征二维化学结构)以及多组学数据作为输入。Hi-GeoMVP采用几何增强的图形神经网络(GeoGNN)和多层感知器(MLP)从药物特征中学习药物表示,使用图注意力网络(GAT)和变分自编码器(VAE)从多组学数据中学习细胞表示。然后通过多视图融合模块集成这些表征,用于药物反应预测。该模型还利用潜在表征和不同的预测子网络来联合学习药物和细胞任务,最终提高对药物反应的预测。Hi-GeoMVP模型的最终输出为IC50的对数的预测值。

图1 Hi-GeoMVP结构图

作者使用GDSC数据集,包含125696个药物细胞系对,177个药物和734个癌细胞系。对于细胞系谱,作者整合了来自GDSC数据集的基因表达、CNV(拷贝数变异信息)和突变数据,去除表达变异最小的基因,得到一个完整的基因表达集。随后,通过筛选COSMIC数据集中列出的癌症特异性基因来改进数据。最终的数据集包括完整的基因表达数据,过滤后的基因表达数据,突变数据,以及CNV数据,进一步构建了每个基因组数据类型的细胞系图。

Hi-GeoMVP使用图同构网络(GIN)从化学结构三维图中学习药物表征,使用消息传递方案进行节点特征更新。其中每个原子表示为一个节点,每个键表示为一条边,通过计算键之间的角度来包含药物的几何信息。在具体的消息传递方案上,为了包含药物的几何关系,使用了几何图神经网络(GeoGNN),它考虑了原子到原子(A2A)图和键到键(B2B)图。如果两个键共享一个公共原子,则认为它们在B2B图中是连接的。通过考虑相邻键之间的消息传递并包含连接键之间的夹角来更新消息传递。在最后一层,对所有原子应用最大池化操作来生成几何图形级表示,对药物的结构信息进行编码。同时,利用多层感知器(MLP)从药物分子的扩展连接指纹(ECFP)数据中捕获药物的局部信息,将其与GIN学习到的三维表征拼接⁠。这种方法为药物分子提供了不同层次的几何结构表示。

接着,Hi-GeoMVP整合了三种组学特征的基因相互作用和组学特征:突变、CNV(拷贝数变异信息)和与疾病相关的基因表达。细胞系图中的每个基因都是一个节点,基因相互作用形成边,组学特征作为节点属性。对于突变和CNV谱,余弦相似性用于创建基因相互作用,而HumanNetV3的金标准阳性(GSP)用于构建基因表达谱。Hi-GeoMVP使用由Graclus聚类的超级节点和图注意力神经网络来学习每个组学数据的表示。尽管Graclus只考虑细胞系图的拓扑结构,而不考虑组学特征,然而,由于利用基因特征的余弦相似性来构建细胞系图,因此在聚类过程中隐含地考虑了组学特征。接着,使用变分自编码器(VAE)从完整的基因表达中学习嵌入,它封装了所有重要的基因表达数据,而不仅仅是特定疾病相关基因。最后,多视图细胞系编码器产生多组学特异性隐藏向量,然后将这些载体连接起来形成最终的细胞系表示,有效地整合来自不同组学概况的信息。

组学特异性融合层单独捕获药物组学相互作用,产生三种配对:基因表达和药物对,突变和药物对,以及CNV和药物对。每一对都通过单独的MLP处理,最终拼接以产生融合的药物组学嵌入,进行最终的药物反应预测。在此基础上,模型明确地模拟了药物组学的相互作用。此外,模型利用跳跃知识连接,进一步增强模型的学习能力,因为这种设计保留了很强的梯度信息,从而促进了训练过程中的信息捕获。

Hi-GeoMVP通过采用多任务学习方法将生物学和药理学知识整合到学习过程中。这种方法利用学习表征,除了预测IC50的对数值之外,还预测以下三个相关的辅助任务,如图1所示。(1)根据组织癌症类型对细胞系进行分类。不同癌症类型细胞系的异质性限制了模型预测的准确性和泛化能力,针对这一点,Hi-GeoMVP模型不仅可以预测泛癌症药物反应,还可以根据不同的癌症类型进行区分。(2)根据药物靶向通路对药物进行分类,丰富其对分子机制的理解,隐式集成了通路信息来学习鲁棒药物表示。(3)预测药物敏感性阈值。根据每种药物在不同细胞系中的反应来定义该阈值,这个阈值可以作为药物抑制癌细胞生长或诱导细胞死亡的效力的指示。

结果

作者将Hi-GeoMVP与一些具有代表性的方法进行了比较。如表1所示,将皮尔逊相关系数(PCC,越高越好),回归系数(R方,越高越好),均方根误差(RMSE,越低越好),平均绝对误差(MAE,越低越好)这些指标作为对比。Hi-GeoMVP性能在所有指标上超越了现有方法。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。研究表明,药物的层次特征的使用对模型的性能起着至关重要的作用(表2)。单独包含药物的化学图导致PCC为0.927。而结合药物的化学图谱和指纹图谱,PCC增加到0.932。在使用辅助任务方面,分别研究了直接使用药物敏感性阈值预测作为辅助任务,不附加额外的正则项进一步将PCC提高到0.937,只使用癌症类型预测作为正则项,只使用通路预测作为正则项分别使PCC从0.937略微提高到0.939。当包括全部辅助任务时,PCC进一步提高到0.941。

表2 消融实验

作者还进行了案例分析。换言之,除了定量性能指标外,作者还验证了模型预测的生物学相关性。它为模型的有效性提供了另一种验证,也证明了其产生新的生物学见解的潜力。首先,在已知的药物细胞系对上训练了Hi-GeoMVP,并对4222个未记录的实例进行了预测。例如,模型预测输出了药物细胞系对Daporinad和SUP-B15,它们的预测最低值为−8.15(见图2)。现有研究表明,Daporinad可抑制NAMPT, NAMPT是一种酶,其抑制已被发现可有效阻碍B-ALL细胞系(如SUP-B15)的白血病进展。另一方面,预测药物靶向信号通路在药物发现中也至关重要。Hi-GeoMVP预测CCT007093靶向p53通路,与已有文献一致。模型还正确预测了激酶抑制剂GSK650394和nlp-bhg712,分别针对SGK1激酶和EphB4激酶。

图2 案例分析

总结

在本文中,作者提出了Hi-GeoMVP来准确预测癌细胞系的药物反应。模型结合了二维和三维几何结构的分层药物特征,以及多组学数据和多任务学习框架,从而显著提高了性能,突出了其在个性化的疾病治疗方面的潜力。未来,模型可在以下方向上进一步优化。

一方面,本文展示了将多任务学习作为正则化项的优势。Hi-GeoMVP可以适应与药物反应预测相关的生物学和药理学知识衍生的其他辅助任务,例如药物靶点预测和基因-疾病关联预测。研究这些任务的不同组合可以进一步完善药物反应预测,并有助于理解生物学机制。

另一方面,目前对多组学数据的处理涉及对每种类型的组学数据使用单独的编码器,并过滤具有不完整或不同缺失数据的细胞系。最近的研究提出通过将联合表示建模为边际表示的产物来解决这种“缺失类型”问题,这些边际表示来自观察到的具有不同缺失模式的组学数据。因此,开发一种适应性更强的细胞系编码器成为未来药物反应预测工作的必要步骤。通过使用可扩展的新型图神经网络模型,在整个基因谱中探索基因-基因相互作用,而不是局限于癌症特异性基因,可能会产生更准确的结果。

参考文献

[1] Chen et al. Hi-GeoMVP: a hierarchical geometry-enhanced deep learning model for drug response prediction. Bioinformatics. 2024

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多