分享

用于基于结构的药物设计的强化遗传算法

 DrugAI 2023-05-12 发布于韩国

今天我们介绍由Tianfan Fu, Wenhao Gao, Connor W. Coley和Jimeng Sun共同组成研究的团队,分别隶属于美国乔治亚理工学院、麻省理工学院和伊利诺伊大学香槟分校的不同学术单位发表在NeurIPS 2022会议上的工作,文章介绍了一种结合神经模型和遗传算法的强化学习方法,称为强化遗传算法(Reinforced Genetic Algorithm,RGA),用于基于结构的药物设计。该方法旨在通过使用神经模型优化设计步骤并抑制随机漫步行为,从而更加稳定和高效地搜索与疾病相关的蛋白质与分子间的牢固结合。该方法与其他基准进行了比较,表现出稳健优异的优化性能,这为加速药物发现过程提供了希望,发现以前未建模的新靶点的新药物。

背景介绍

基于结果的药物设计(SBDD),旨在发现能够紧密结合与疾病相关蛋白质的分子(配体),这是计算辅助药物发现的主要方法。作者提出了一种称为强化遗传算法(RGA)的新方法,它利用神经模型和遗传算法结合。RGA使用神经模型来优先考虑有利的设计步骤并抑制随机行走行为,从而提供了一种更稳定和高效的方法来搜索小分子化合物,并且能够应用于多个疾病标靶。

本文的创新与贡献:

  • 本文提出了一种进化马尔可夫决策过程(EMDP),它将进化过程重新表述为马尔可夫决策过程,其中状态是分子群体而不是单个分子。

  • 本文首次成功地尝试使用神经模型来指导遗传算法中的交叉和突变操作,以抑制随机游走行为并智能地探索化学空间。

  • 本文提出了一种基于结构的从头药物设计算法,通过充分利用基础结合物理优化结合亲和力的彻底实证研究,始终优于基线方法。

方法介绍

在本文中,本文主要目标是设计药物分子(又称配体),可以与疾病相关的蛋白质(又称靶标)紧密结合。考虑到目标蛋白的三维结构,包括结合位点信息,对接是一种常用的评估结合亲和力的计算方法,随着结合过程中自由能的变化,可以大致检索结合亲和力。本文提出了一种由强化学习和docking oracle指导的遗传算法的变体。接下来,本文将首先描述遗传算法中使用的一般进化过程;然后,本文将介绍如何将这一进化过程建模为可以构建RL框架的马尔可夫决策过程(MDP);之后,本文将描述使用多个策略网络的MDP框架的实现。

(1)基于遗传算法的演化过程。在这个过程中,初始的候选分子群体通过交叉和变异操作产生后代,这些后代与目标蛋白进行对接模拟,评估它们与目标的亲和力得分并筛选出最优分子。在交叉过程中,本文从当前候选分子群体中选择两个亲缘关系较近的分子,然后利用结构上的信息进行重组,产生两个新的后代,这个过程类似于基因交叉过程。在变异过程中,本文对一个候选分子进行一些结构上的改变,例如增加或删除一个官能团,以期获得新的结构和更好的表现。这些后代被筛选后与原有群体一起形成下一代,整个过程在不断重复,直到找到最优分子。RGA通过使用神经模型指导交叉和变异操作,来提高优化性能并压制随机行走的行为,从而更加有效和稳定地进行SBDD。

(2) 进化马尔可夫决策过程(Evolutionary Markov Decision Process, EMDP)是一种利用强化学习算法训练网络以告知决策步骤的方法。EMDP将遗传算法作为马尔可夫决策过程(MDP),其主要目的是优先考虑有利可图的设计步骤并抑制随机游走行为。EMDP管道如图1所示,它有四个基本组件:状态空间、动作空间、状态转换动态和奖励。状态空间包括候选分子的数量和它们停靠在目标上的3D姿态,RL代理完全可以观察到。行动空间包括在种群中执行进化步骤:交叉和突变。状态转移动力学与进化过程中的进化是相同的,其中获得的后代池使用分子质量过滤器过滤,以选择最有前途的下一代。奖励被定义为绑定亲和变化(对接分数),导致更强绑定分数的行动是优先的。

图1:本文展示了GA(上)和RGA管道(下)的一次生成(迭代)。具体来说,本文训练了以目标和配体为输入的策略网络,以对RGA中的亲本和突变类型做出明智的选择。

(3)靶配体策略网络(Target-Ligand Policy Network)是增强遗传算法(RGA)的关键组成部分,它为基于结构的药物设计提供了一种新的方法。靶标-配体政策网络是一种神经网络模型,它考虑了靶标和配体的三维结构,以优先考虑有利可图的设计步骤并抑制随机游走行为,最终导致更稳定和有效的药物发现。在优化过程中进行微调之前,使用本地复杂结构预训练神经模型,以利用来自不同目标的共享绑定物理。

实验介绍

数据集:本文所使用的数据集包括了14个目标蛋白和相应的配体分子。其中目标蛋白涵盖了肺炎冠状病毒、丙型肝炎病毒以及人体乙型肝炎病毒等多个疾病相关蛋白。配体分子则是通过数据挖掘和发掘得到的。

实验过程:本文实验主要利用RGA方法对SBDD进行了深入研究,并通过多个指标对不同方法进行了全面的对比和评估。表1列出了各种方法在不同指标下的表现。与此同时,文章还对RGA方法进行了消融实验。

表1:不同方法的性能。RGA-pretrain和RGA- kt是RGA的两种变体,分别不经过预训练和不经过不同靶蛋白的训练。

图2

实验结果:使用RGA在基于结构的药物设计中能够更稳定和高效地搜索分子与疾病相关的蛋白质结合。RGA利用神经模型和遗传算法相结合的方法,优先考虑有利的设计步骤,抑制随机游走行为,同时利用目标和配体的三维结构进行预训练,从不同目标之间共享的结合物理学出发精细调整和优化。与其他基线方法相比,RGA在碰撞评分方面表现更加强大和稳健。

结论

本文介绍了一种利用神经模型和遗传算法相结合的加强型遗传算法 (RGA) 来加速基于结构的药物设计的方法。RGA 提供了一种更加稳定和高效的药物分子搜索方法,利用神经模型来筛选设计步骤,抑制随机游走行为。神经模型考虑了靶蛋白和配体的三维结构,并通过利用多个不同靶蛋白的共同结合物理特性进行预训练,重新调整优化时的模型参数。通过与多个基线方法的比较,RGA 在分子对接得分方面一致表现优秀,证明了其强大和稳健的优化性能。此外,RGA 还利用了配体-靶蛋白相互作用的共同物理特性来改善性能,并抑制了传统基因算法中的随机游走行为。总而言之,RGA 提供了一种有望加速药物发现过程的方法,最终导致新的药物发现,传统上尚未建模的新靶标可以利用该模型进行探索。

参考资料

Fu, Tianfan, Wenhao Gao, Connor Coley, and Jimeng Sun. "Reinforced genetic algorithm for structure-based drug design." Advances in Neural Information Processing Systems 35 (2022): 12325-12338.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多