分享

J. Med. Chem. | 一种基于图表示学习的蛋白-配体相互作用打分方法InteractionGraphNet

 DrugAI 2022-04-19

本文介绍来自一篇浙江大学智能创新药物研究院侯廷军教授团队, 浙江大学计算机学院吴健教授团队,中南大学曹东升团队和腾讯量子实验室联合在药物化学领域权威期刊 Journal of Medicinal Chemistry发表的一篇文章。该文章提出一种新型的基于图表示学习的蛋白-小分子相互作用的打分方法InteractionGraphNet(IGN)。在IGN中,作者基于物理原理分别设计了独立的分子内图卷积和分之间图卷积模块来先后学习蛋白-配体复合物中的分子内相互作用和分子间相互作用,并将学习到的分子间相互作用应用于下游的任务预测, 包括蛋白-配体结合亲和力预测、大规模虚拟筛选以及小分子结合构象预测。实验结果表明,IGN模型的泛化性能均优于同类ML方法和分子对接程序。此外, 作者还用大量的实验表明IGN模型的优异性能并非是来自于学习数据集中的隐藏偏差,而是真正学习了蛋白-配体相互作用的一些关键特征。

1

研究背景

在创新药物的研发过程中,先导化合物的发现是新药开发的关键,先导化合物的质量直接决定了药物开发的成败,是创新药物研发的瓶颈。在筛选和设计先导化合物的过程中要充分考虑其生物活性、结构新颖性、靶点选择性、成药性和毒性等特性,其中化合物对靶标的生物活性是研究者最为关注的特性之一。实验方法来定量评价小分子对靶点的生物活性花费大、周期长。基于分子对接的虚拟筛选成本低、效率高,已成为先导化合物发现的核心技术。在分子对接计算中,打分函数(SF)被用于评价受体-配体间相互作用的强弱。但分子对接所用的打分函数一般采用了简单的线性拟合模型,精度往往不高,严重影响了虚拟筛选的预测能力。因此, 开发高精度的打分函数是提升虚拟筛选预测能力及发现高质量活性分子的有效途经。

2

InteractionGraphNet模型简介

InteractionGraphNet模型共包含5个模块(图1),分别是:(1)基于化学信息和三维结构特征的图表征模块;(2)分子内图卷积模块;(3)分子间图卷积模块;(4)图池化模块;(5)任务层模块。

基于化学信息和三维结构特征的图表征模块: 在图表征模块中,作者使用三张图分别表征蛋白-配体复合物中的分子内和分子间相互作用,包括配体图、蛋白口袋图和蛋白-配体图 。对于图中节点和边特征,除了常见的化学信息特征(原子类型,原子杂化方式、化学键类型等),作者还引入一些三维几何特征(距离统计值、边角统计值等)来充分表征蛋白-配体复合物的三维拓扑结构。

图1. InteractionGraphNet模型的构建流程示意图

分子内图卷积模块:该模块通过消息传递机制学习配体图()和蛋白口袋图()中原子的节点表示。并将从蛋白图和配体图学习到的节点表示传递给下游的第三张蛋白-配体图,并作为第三张蛋白-配体图的初始节点表示。

分子间图卷积模块:由于蛋白-小分子复合物中的分子间相互作用主要由蛋白原子和配体原子之间的非键相互作用所决定。此模块用于学习蛋白-配体图中蛋白原子和配体原子之间的成对原子间相互作用,并将学习到的成对原子间相互作用传递给下游的图池化层。

图池化模块:此模块用于从上游学习到的成对原子间相互作用为每个蛋白-配体复合物提取一个全局的向量表示(学习到的分子间相互作用)并用于下游任务的预测。

任务层模块:采用全连接神经网络模型(FCNN)作为任务层模块的基本架构。其中,在FCNN中的每个隐藏层后添加批归一化操作以改良普通的FCNN并加速神经网络的训练。

3

数据集与实验任务

作者一共测试了三种任务, 包括蛋白-配体小分子结合亲和力预测, 大规模的虚拟筛选实验以及小分子结合构象预测。对于蛋白-配体小分子结合亲和力预测和小分子结合构象,使用的数据集主要是PDBBind2016。对于虚拟筛选实验, 作者使用DUD-E, DEKOIS2.0以及LIT-PCBA (decoys/actives≈1000:1)三种数据集,分别构建了target-free和target-specific的虚拟筛选模型. 在target-free的模型中,作者使用DUD-E做训练集, DEKOIS2.0做外部测试集. 对于target-specific模型, 作者从LIT-PCBA数据集中挑选了FEN1, KAT2A, PKM2三个靶点分别构建靶标特异性的虚拟筛选模型。每种任务所对应的数据集及相应的划分如表1所示 (表格中的括号代表阳性样本量/阴性样本量)。

表1. 每种实验对应的数据集及其划分

4

实验结果

结合亲和力预测

结合亲和力预测是评估蛋白-小分子相互作用模型的最常规方法。作者使用8298个蛋白-配体复合物训练IGN模型,最终IGN模型的结合亲和力预测实验结果如图2所示。对于PDB2016 core set外部测试集的Rp为0.837, RMSE为1.220。对于PDB2013 core set外部测试集的Rp 为0.832,RMSE为1.372。

图2. IGN模型的结合亲和力预测实验结果

虚拟筛选实验

目前大部分蛋白-小分子打分模型都只局限于测试其结合亲和力预测性能。蛋白-小分子打分模型的虚拟筛选性能对于药物发现具有更加重要的意义。最近浙江大学侯廷军教授课题组系统评测了14种基于ML的打分函数的虚拟筛选能力(Brief Bioinf, 2020, bbaa070), 结果表明除RFScoreVS之外,大部分ML打分函数在虚拟筛选中的性能表现并不如传统的分子对接方法如Glide SP。因此作者又系统的测试了IGN模型的虚拟筛选性能,并用RFScoreVS和Glide SP作为基线进行对照。在场景1中,作者构建了target-free的虚拟筛选模型,使用DUD-E数据集进行IGN模型训练及选择,DEKOIS2.0做外部测试集,最终对DEKOIS2.0的81个靶点的虚拟筛选效果如图3所示。

图3. IGN,RFScoreVS和Glide SP对DEKOIS2.0中81个靶点虚拟筛选性能

在场景2中,作者从具有挑战性的LIT-PCBA数据集中选择三个重要靶点 (FEN1、 KAT2A、PKM2) 构建了target-specific模型,最终IGN,RFScoreVS和Glide SP的虚拟筛选效果如表2所示。在场景3中,作者直接使用在场景1中构建的IGN模型 (IGN(DUD-E)) 测试了LIT-PCBA数据集的三个靶点(2,IGN (DUD-E))。在以上三种测试场景下,IGN模型的整体表现优于RFScoreVS和Glide SP。

表2. IGN、RFScoreVS和Glide SP对LIT-PCBA数据集中 3个靶点的虚拟筛选性能比较

小分子结合构象预测实验输入标题

目前,有相当数量的机器学习打分函数方法对于同一蛋白-小分子的不同结合构象并不敏感。但一个能真正学习蛋白-小分子相互作用模式的ML模型应当对于同一小分子的不同结合构象是敏感的。因此,作者又测试了IGN模型对于小分子结合构象的预测能力。在场景1中,作者直接基于PDBBind2016数据集产生的各种构象训练IGN模型来区分正确构象和错误构象(表3),从表中可以看出,IGN模型的构象区分能力在AUC指标上的性能明显好于Glide SP,但在Top1成功率上略低于Glide SP。

表3. IGN模型的小分子结合构象预测实验结果

在场景2中,作者额外检查了IGN模型对于不同RMSD区间的结合构象是否具有区分能力,从图4可以看出,随着小分子结合构象的RMSD值增加,IGN模型对于具有较大RMSD的结合构象的预测性能逐渐降低,且与晶体构象上的性能差异越来越大。表明IGN模型对于同一配体的不同结合构象是敏感的,侧面表明IGN模型可学习蛋白-配体的结合模式来进行预测。

图4. IGN模型对不同RMSD区间的小分子结合构象的预测实验结果

IGN模型的可视化

最后,作者还尝试可视化IGN模型所学到的原子对相互作用以及高层次的分子间相互作用(图5)。作者的可视化表明具有相似结合模式的复合物在IGN模型中所学习到的高层次分子间相互作用也具有极强的相似性。此外,IGN模型学习到的原子对相互作用也与相应的专家知识具有很好的吻合性。

图5. IGN模型的可视化

5

总结

蛋白质-配体相互作用的准确预测是基于结构的药物设计中关键挑战。然而,基于描述符、一维蛋白质序列和/或二维图形表示的传统机器学习方法限制了它们在三维空间中的学习具有泛化性能的分子间相互作用。作者在本文提出了基于图表示学习的InteractionGraphNet (IGN) 打分函数方法,从蛋白质-配体复合物的三维结构中学习蛋白质-配体的相互作用。在IGN中,作者设计了两个独立的图卷积模块来依次学习分子内和分子间的相互作用,并将学习到的分子间相互作用用于后续任务的预测。大量的结合亲和力预测、大规模基于结构的虚拟筛选和小分子结合构象预测实验表明,与其他基于ML的方法和分子对接软件相比,IGN 取得了更好或类似的性能。更重要的是,IGN模型能学习蛋白质-配体相互作用的关键特征,而不是仅仅学习数据集中的隐藏偏差。

参考资料

https://pubs./doi/10.1021/acs.jmedchem.1c01830

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多