分享

Nat. Mach.Intell.| AI识别165个新癌症基因,有望助力个性化医疗领域

 DrugAI 2022-04-19

今天报道的论文是来自德国柏林马克斯·普朗克分子遗传学研究所的Annalisa Marsico团队发表在Nature Machine Intelligence上的Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms。作者提出了一种基于图卷积神经网络的可解释的机器学习方法(EMOGI),该方法通过将多组学泛癌数据与蛋白质-蛋白质相互作用(PPI)网络相结合来预测癌症基因,最终确定了165个与癌症相关的新基因。实验结果表明,EMOGI在不同的PPI网络和数据集上比其他方法更准确,为个性化药物靶向治疗以及其他复杂疾病的生物标志物开发开辟了新前景。

1

介绍

可用高通量分子数据的增加为癌症基因的鉴定带来了计算上的挑战。遗传和非遗传因素均会引起癌症,这就需要开发预测模型,以便在可解释的同时有效整合不同的数据模式。在过去的几年里,几个癌症测序项目已经从成千上万的癌症患者身上产生了突变数据。

为了利用多组学数据集中包含的补充信息,需要开发能够将不同层次的数据集成到单一框架中的模型。图卷积神经网络(GCNs)能够基于网络中未标记的节点的相关特征向量以及网络拓扑对其进行分类,使得以自然的方式将基于图的数据与特征向量相结合成为可能。

EMOGI是一种基于GCNs的可解释多组学图集成的机器学习方法,优先考虑来自大型数据集的癌症基因,例如来自TCGA的泛癌症数据。EMOGI在学习过程中利用多维多组学节点特征以及PPI网络的拓扑特征,不仅能够识别高度突变的癌症基因,还能识别携带其他种类改变(异常DNA甲基化、差异表达)的基因或与其他癌症基因参与PPI的基因。EMOGI为精准肿瘤学开辟新途径,并可用于预测其他复杂疾病的生物标志物。

2

研究成果

EMOGI框架

EMOGI基于GCNs,以半监督的方式训练,以辨别假定的癌症和非癌症基因。本项目从TCGA收集了16种癌症类型的基因组数据(图1a)。对所有组学数据进行过滤和预处理:针对基因长度校正突变频率,以避免对长基因的高突变率偏差。跨癌症类型的组学数据被连接成一个单一的矩阵,并与PPI网络相结合,其中节点对应于基因,边对应于它们之间的相互作用。将部分标记的图输入到EMOGI模型中,其中阳性标记对应于注释的癌症基因,阴性标记对应于非癌症基因。图卷积网络使用多个层来传播和聚集输入到下一层的节点和图特征,以学习更高阶的特征(图1b)。EMOGI的输出是一个完全标记的图,每个基因被分配了一个成为癌症基因的概率。

图1 EMOGI框架示意图

EMOGI准确识别KCGS

基于多组学特征和来自公开数据库的各种PPI网络,在癌症和非癌症基因的高置信度集合上训练EMOGI,并评估了该方法在不同网络中的性能(参见图1和2)。在共识路径数据库(CPDB) PPI网络上,EMOGI识别了89%的已知癌症基因(KCGs)和约50%的候选癌症基因(CCGs)(见图3)。平均而言,它在六个不同的PPI网络中优于所有其他方法(图2a)。

图2 EMOGI预测癌症基因

图3 癌症基因模型解释概括它们致癌的分子机制

预测新的癌症基因

在这一步中,重点关注那些不在KCG数据库中的EMOGI新预测的癌症基因 (NPCGs) ,并对其进行更深入的分析。通过汇总在不同PPI网络上训练EMOGI获得的顶级预测,编制了一份高置信度的NPCGs列表。详细来说,从所有六个PPI网络中收集了前100个预测,并提取了那些之前没有被注释为癌症基因的预测,结果产生了165个 NPCGs,随后分析其特性(图4)。

图4 NPCGs与KCGs相互作用,这在肿瘤细胞系中十分重要

从单基因特征重要性到全局模型行为分析

特征贡献的聚类方式揭示了不同癌症基因组。根据EMOGI的前1000个预测癌症基因在不同癌症类型中的特征重要性LRP评分,使用Kluger和colleagues的光谱双聚类算法对它们进行聚类。这产生了棋盘矩阵结构,其中分组在一起的基因对应于由一种或多种癌症类型中的一组共同的重要组学特征标记的预测(图5a)。

图5a中显示了一些代表性的双簇。首先观察到大多数检索到的基因簇对应于突变驱动的基因预测(簇1、2、5、7、10和12a图5a)。这再次强调了突变率是癌症基因分类最重要的特征。组学特征对聚类1、4和12中基因分类的贡献远低于PPI网络贡献(图5b)。

图5 基因和特征贡献的双聚类表明具有独特功能特征的不同癌症基因类别

图6 EMOGI提取的PPI网络成分

图6显示了CPDB中PPI网络中重要边的最大SCC。红色的基因名称表明该基因被EMOGI预测为癌症基因,节点的形状表明该基因是否已经在癌症基因数据库中被注释,并且根据Achilles癌症依赖性图,该大小与该基因是必需的肿瘤细胞系的数量成比例。边缘的宽度与EMOGI模型边缘的LRP重要性成比例。

3

总结

本文提出的EMOGI框架相当通用,因为它可以集成任何类型的组学数据和网络。因此,它可以在癌症基因组学领域之外使用,并可用于研究其他复杂疾病,在这些疾病中,多组学数据是可用的,基因之间的功能联系与疾病基因的分类相关,最终形成一个聚集患者分子特征的模型,该模型可以在未来用于根据所学的分类特征对患者进行分层,为精准肿瘤学及更高领域的应用提供重要的分析工具。

参考资料

Schulte-Sasse, R., Budach, S., Hnisz, D. et al. Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms. Nat Mach Intell 3, 513–526 (2021).

https:///10.1038/s42256-021-00325-y

代码

https://github.com/schulter/EMOGI

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章