【原】JCIM | 使用深度学习进行基于结构的从头药物设计

智药邦 2021-11-28

展开全文

2021年11月18日，JCIM杂志发表文章，介绍了一种利用靶蛋白结合位点的图形表示，来为靶蛋白设计新的小分子的深度学习方法。

以下是全文主要内容。

摘要

近年来，基于深度学习的方法已经成为新药设计的有前途的工具。这些方法中的大多数是基于配体的，在这种情况下，最初的靶点特异性配体数据集对于设计具有优化特性的有效分子是必要的。尽管已经有人尝试开发替代方法来设计靶点特异性配体数据集，但在设计针对新型目标蛋白的分子时，这种数据集的可用性仍然是一个挑战。

在这项工作中，我们认为依靠目标蛋白质的活性位点结构的相关知识，便足以设计新的分子。首先，在已知的能形成蛋白质−配体复合物的蛋白质上，利用图注意力模型来学习活性位点的氨基酸的结构和特征。接下来，将学习到的活性位点特征与预先训练的生成模型一起用于条件生成新分子。最后在强化学习框架中使用生物活性预测模型来优化条件生成模型。

我们在Janus激酶2（JAK2）和多巴胺受体D2（DRD2）这两种被充分研究的蛋白质上验证了该方法，生成了类似于已知的蛋白抑制剂的分子。图注意力模型可以识别可能的关键活性位点残基，这有利于条件分子生成器设计具有与已知抑制剂相似药效特征的新分子。

1.研究背景

寻找可调节疾病蛋白质活性的分子对治疗疾病至关重要。为了提高药物设计过程的成功率，研究人员已经开发了各种计算方法。深度学习方法不仅可以探索广阔的化学空间，也可以针对特定的目标蛋白质设计具有动态物理化学性质优化的新分子。大多数深度学习的药物设计研究都是基于配体的，它们利用现有的靶向小分子，通过迁移学习和/或强化学习设计一组更有效的靶向小分子，并优化其性质。尽管基于配体的药物设计方法为几种常见的药物靶点提供了可靠的结果，但它们对现有靶点特异性配体数据集的依赖性，限制了它们对新靶点蛋白质和已知配体数据有限的蛋白质的效用。

相反，基于结构的药物设计方法仅依赖于目标蛋白质的结构特征来生成具有互补特征的小分子，从而促进更好的结合。传统的基于结构的药物设计利用片段生长和/或片段连接方法。最近的一些研究也应用了深度学习技术，利用蛋白质结构信息重新设计新的小分子。此类研究可大致分为两类：即无监督方法和半监督方法。

在这项研究中，我们提出了一个半监督的多模式深度学习模型，利用蛋白质结合位点的图形表示和配体的SMILES表示来进行学习，为任何已知结构的靶蛋白设计新的小分子。

将图形和SMILES模型结合后形成一个特定于目标的分子生成器，在进一步优化之前，该生成器需进行一个短暂的再训练阶段。接下来，使用多模式药物-靶标亲和力（DTA）预测模型来建立目标特异性生物活性最大化的奖励函数，并以此为目标在强化学习框架中优化分子生成过程。我们认为，这是第一种在半监督环境下利用蛋白质结合位点表示来指导分子生成过程的方法。

使用这种方法，我们针对两个充分研究的蛋白质靶点JAK2和DRD2设计分子，并与已知的这些蛋白质抑制剂进行比较。尽管该模型仅包含有关靶蛋白活性位点的信息，但生成的分子还保留了现有抑制剂的特征。最后，基于图注意力模型，我们确定了一组关键活性位点残基，这些残基可能可以对生成的新化学实体进行佐证。

2.方法

用图表示目标蛋白质的活性部位

靶蛋白的活性位点由与小分子（配体）相互作用的关键氨基酸残基组成。活性位点表示为一个图，其中节点表示氨基酸，边表示两个氨基酸之间的相互作用。这样，构建的活性位点图类似于一个原子对接触网络。根据体积和偶极矩，将氨基酸分为七类，再加上它们作为氢键供体和氢键受体的能力，形成总共九个节点特征，进而对图中的节点进行特征化。

对GAT-VAE模型进行预训练，以对活性位点图进行编码

数据

活性位点的数据集来自PDBBIND和scPDB数据库。将PDBBIND常规集、精炼集和scPDB数据库结合起来，经过处理后总共获得5981个复合物用于训练GAT-VAE模型的活性位点。

模型

GAT-VAE模型由编码器和解码器组成（图1a）。图的邻接矩阵（A）和节点特征向量（X）被输入编码器。这些向量经过重新参数化以获得潜在向量。最后，编码器返回输入活性位点图的潜在向量（z）。解码器利用潜在向量重构输入活性站点图的邻接矩阵。GAT-VAE模型将活性位点图嵌入到潜在表示中，以便以后用于条件分子生成。

图1 基于结构的药物设计流程。流程的组成如下：（a）对GAT-VAE模型进行预训练，以学习活性位图；（b）对SMILES-VAE模型进行预训练，学习小分子语法；（c）将GAT-VAE模型与SMILES-VAE模型相结合，形成条件分子发生器；（d）预训练药物靶向亲和力（DTA）预测模型，预测生成小分子的生物活性；（e）在强化学习框架中使用DTA模型微调条件分子生成器。

对SMILES-VAE模型进行预训练，学习小分子语法

数据

SMILES格式的类药物小分子数据集来自ChEMBL数据库。大约1600万个SMILES格式的药物样小分子用于生成模型的预训练。VAE模型的编码器和解码器都由双向门控循环单元（GRU）组成。

模型

约 160 万个 SMILES 格式的类药物小分子数据集用于预训练生成模型。SMILES-VAE 模型的深度神经网络架构由编码器和解码器组成（图1b）。编码器和解码器均由两层 1024 个双向门控循环单元 (GRU) 作为内部存储器组成，并通过堆栈作为动态外部存储器进行扩充。

结合预先训练的VAE模型的条件分子生成器

将预先训练好的GAT-VAE和SMILES-VAE模型结合起来(图1c)来调节分子生成过程，以生成特定于目标蛋白质的分子。将来自GAT-VAE编码器的输入图的潜在向量与来自SMILES-VAE编码器的输入潜在向量连接起来，形成组合的潜在向量(Z)。

预训练药物靶向亲和力（DTA）预测模型

数据

药物靶向亲和力（DTA）预测模型需要针对各种靶蛋白的活性小分子的数据集。该数据集应包括生物活性谱由低到高的小分子，以提高新型小分子DTA模型的通用性。从PDBbind常规集和精炼集收集小分子的IC50、Ki和KD值，共计9584个独特数据点。

模型

建立了一个药物靶向亲和力(DTA)预测模型来测量产生的小分子对靶蛋白的亲和力(图1d)。本文中使用的DTA模型是基于先前研究中开发的扩展连接交互指纹（ECIF）。利用PDBbind数据集的常规和精炼集合中的蛋白质−配体复合物，以ECIF指纹和RDKit化学描述符作为输入来训练差热分析模型。该模型在PDBbind核心集上进行了验证，并在ASTEX分集集上进行了测试。

利用RL框架设计具有优化结合亲和力的新型小分子

强化学习框架将条件分子生成器和DTA模型相结合，为任何给定的目标蛋白设计新型小分子(图1e)。使用条件分子生成器对50个分子进行采样，以获得输入活性位点图，并将其传递到DTA模型进行评估。将预测得到的pIC50值用于使用奖励函数计算奖励/惩罚。

在RL训练之后对生成的小分子进行验证

数据

我们模拟电子验证以了解生成的分子的质量。将所产生的分子与两个靶蛋白JAK2和DRD2特异的小分子进行比较。从ChEMBL数据库收集所有已知的JAK2和DRD2抑制剂的数据集及其实验确定的pIC50值。

分析

在RL训练之后，产生了一组10000个小分子，每个目标蛋白都有预测的生物活性值。通过测量生成的小分子与目标蛋白的已知配体的Tanimoto系数相似性来验证生成的小分子的质量。

我们还比较了生成的小分子与已知配体的各种物理化学性质分布的相似性。在子结构相似性方面，我们使用两种不同的分析：(A)片段分布和(B)基于药效团的筛选。

3.结果

预训练模型的性能

我们使用GuacaMol分布学习基准(v0.5.3)对预先训练的SMILES-VAE模型进行评估。该基准的度量包括：有效性、唯一性、新颖性、KLD和FCD。SMILES-VAE模型对SMILES潜在表征的解码准确率为93.22%，样本小分子的唯一性和新颖性分别为99%和96%。与GuacaMol基准中强调的基线VAE模型相比，本研究中预先训练的SMILES-VAE模型的效度指标更好(表1)。

表1 基准测试结果：本研究中来自GuacaMol基准的基线VAE模型和SMILES-VAE模型的基准度量之间的比较。

产生针对JAK2和DRD2的新型小分子

图2 基于DTA模型预测的针对(a)JAK2和(c)DRD2的小分子在强化学习前后的生物活性分布，以及产生的小分子与现有的(b)JAK2和(d)DRD2抑制剂高度相似的例子。还为每个分子提供了已知抑制剂的CHEMBL标识符或PubChem CID。

对于每个目标蛋白，使用相应的结合位点图单独训练条件分子生成器。训练过程后获得的最终生物活性分布如上所示(图2，a和c部分)。在强化学习训练过程之后，使用所得到的靶特定条件分子生成器模型对10000个小分子进行采样。化学上无效的分子被移除，其余的分子在进一步分析之前被标准化。强化学习后的模型平均生成90%的有效分子，表明该模型有效地克服了灾难性遗忘。

对生成的小分子进行分析

A.基于Tanimoto的生成分子的相似性

首先使用Tanimoto系数(TC)和ECFP4指纹作为输入表示来计算生成的小分子与特定于目标的分子数据集的相似性。生成的小分子中分别有30个和80个满足JAK2和DRD2蛋白的TC(TC=0.75)截止要求(图2，b和d部分)。此外，还发现5个生成的小分子与现有的DRD2抑制剂(TC=1.0)相同，显示了条件生成模型为目标蛋白复制现有抑制剂的能力。基于TC的ECFP4指纹评分没有考虑两个分子中存在的官能团之间的特征相似性。这导致其忽略了其他仍然拥有所需的官能团，或者生物反应所需的药效团特征的分子。

B.基于配体为基础的药效团生成的分子的相似性

使用PharmaGist程序提取的基于配体的药效团用于筛选生成的小分子，并鉴定具有高特征重叠分数的分子。基于药效团的筛选结果总结在表 2 中。

表2 JAK2和DRD2蛋白a生成小分子的药效团筛选结果

a提供hits、通过任一药效团筛选的分子数以及未通过两种药效团筛选的分子数。b具有大于最大重叠分数一半的分子的密度被视为hit。c任何重叠分数为正的分子都被视为筛选分子。

GAT-VAE模型中的重要活性部位残基

从GAT-VAE模型中分析了活性位点图中每个残基（节点）及其邻域的注意力系数。通过分析每个节点的注意系数，可以识别模型经常给予更多注意的残基对，并且可以阐明GAT-VAE模型学习到的潜在表征背后的生物学意义。

图3 多巴胺受体D2（DRD2）蛋白活性位点残基的注意力系数热点图。残基根据其在蛋白质序列中的位置进行排序。较暗的方框表示注意力系数较高，对残基对之间的相互作用更为重要。

从注意力系数热力图确定的DRD2结合位点的关键残基和相互作用如图3所示。注意系数大于0.5的残基对被认为是重要的。对于DRD2蛋白的结合位点，149个相互作用中只有17个注意系数（αij）高于0.50。八个活性位点残基（Leu94、Trp100、Asp114、Thr119、Ile184、Phe198、His393和Tyr416）的注意系数大于0.5。已知这八个活性位点残基与文献中报道的各种高选择性DRD2抑制剂相互作用。还发现这些残基与生成的分子相互作用。

图4 根据注意力系数确定的关键活性位点残基与选定的DRD2特定生成小分子之间的相互作用：(a)Mol_1174（白色条）和(b)Mol_132（青色条）。形成氢键的残基如虚线所示。

图4显示了两个具有代表性的生成分子与这些关键活性位点残基之间的相互作用。DRD2的活性部位部分疏水（Leu94、Trp100、Ile184、Phe110）。这些残基与生成的分子形成疏水相互作用。然而，在另一侧，它衬有极性和带电残基（Asp114、Thr119、Ser193、His393和Tyr408），它们与生成的分子形成氢键相互作用。此外，Tyr408还可以与生成的分子形成堆叠相互作用。

DRD2活性位点残基间的三种稳定作用先前的文献中也报道了——His393和Tyr408（α_ij=0.6）、Ile184和Trp100（α_ij=0.5）以及Trp100和Leu94（α_ij=0.6）。有趣的是，突变研究证明了Leu94、Trp100和Ile184之间的相互作用在稳定蛋白质-配体复合物方面的重要性，以及配体从结合位点的离解。此外，已证明His393和Tyr408之间的螺旋间氢键可稳定DRD2中跨膜螺旋VI的向外运动，该跨膜螺旋VI控制蛋白质的活性和非活性状态之间的切换。活性位点残基Asp114附近存在仲胺基团，有助于氢键的形成（图4）。根据以前的文献，Asp114相互作用负责将小分子锚定在活性部位空腔中。总的来说，具有较高注意力系数的残基对被发现为生成的分子提供稳定性。这些残基可能在分子生成中发挥作用，这可以从DRD2蛋白与生成的分子相互作用的互补性来解释（图4）。

这些观察结果表明，GAT-VAE模型可以区分关键结合位点残基和相互作用，并通过学习更敏锐的注意力系数将这些信息纳入活性位点图的潜在表示中。

4.结论

在这项研究中，我们利用深度学习开发了一种新的基于结构设计新小分子的方法。该方法利用一个图注意力网络和一个递归神经网络的组合来形成一个条件生成模型。它可以在药物靶向亲和力预测模型的指导下产生特定于靶向活性位点的小分子。图注意力模型能够通过注意力系数区分关键活性位点残基和相互作用。以活性位点图和ECIF指纹的形式使用活性位点信息有助于生成特定于目标蛋白质的分子。

我们在两种不同的靶蛋白上验证了条件生成模型，发现与现有抑制剂相比，该模型生成的小分子具有高度的相似性。还发现生成的小分子保留了有效结合目标蛋白活性部位所需的关键药效特征。

参考资料

Krishnan S R, Bung N, Vangala S R, et al. De Novo Structure-Based Drug Design Using Deep Learning[J]. Journal of Chemical Information and Modeling, 2021.