【原】Bioinformatics｜陈语谦：用于可解释药物靶点结合亲和力预测的节点自适应混合图神经网络

智药邦 2023-07-20 发布于上海

展开全文

2023年5月30日，中山大学陈语谦教授团队在Bioinformatics上发表文章。本文提出了NHGNN-DTA（nodeadaptive hybrid graph neural network for interpretable drug–target binding affinity prediction），一种用于可解释药物靶标亲和力预测的节点自适应混合神经网络。它可以自适应地获取药物和蛋白质的特征表示，并允许信息在图级上交互，有效地结合了基于序列和基于图的方法的优点。实验结果表明，NHGNN-DTA取得了优于现有方法的性能。此外，多头自注意机制使模型具有可解释性，为药物发现提供了新的探索性见解。

背景

大规模预测药物靶标亲和力(DTA)在药物发现中起着重要作用。近年来，机器学习算法在利用药物和蛋白质的序列或结构信息进行DTA预测方面取得了很大进展。目前，基于机器学习的DTA预测主要分为基于序列的和基于图的两种方法。然而，基于序列的算法忽略了分子和蛋白质的结构信息，而基于图的算法在特征提取和信息交互方面存在不足。

方法

NHGNN-DTA由节点特征生成器和混合图神经网络（HGNN）组成。NHGNN-DTA的流程图如图2所示。节点特征生成器对药物的SMILES和蛋白质序列进行编码，得到相应节点的特征。在HGNN中，输入图包含氨基酸和药物原子节点，DTA预测通过多层图同构网络(GIN)输出。

图1 NHGNN-DTA结构图

NHGNN-DTA首先对药物的SMILES和蛋白质的序列进行编码。为了获得药物中每个原子的相应嵌入，作者设计了一个标记器，它在原子水平上进行编码，从而确保嵌入对应于原子或化学键。如图1上半部分所示，使用BiLSTM作为主要的特征生成器主干。该方法可以有效地同时提取药物的SMILES和蛋白质序列特征。将药物和蛋白质特征转移到线性注意力层中。为了丰富注意力的多样性，采用多头注意力机制，得到药物和蛋白质对应的输出。为了提高药物-蛋白质（DP）对在序列水平上的相互作用，将两个线性注意力的输出连接起来。然后将连接的载体进一步传输到总线性注意力层，实现药物与蛋白质之间的信息交互。最后，将融合输出馈送到全连接层，得到DTA预测。

在以往的基于序列的DTA预测方法中，药物的SMILES作为一个完整的序列传递到分词器中输入后，获得的token是基于自然语言处理的分词方法，如n-gram。然而，SMILES可能包含一些原子，这些原子不应该像普通文本那样根据频率和其他属性进行拆分。例如，“Cl”应该是氯原子的符号，而不是分为“C”和“l”。因此，拆分方法的使用在导致分词器分词过多，可能破坏药物分子的完整信息。为此，作者设计了一个特殊的原子级标记器，以确保可以获得原子一对一的标记。首先，使用RDKit工具获取数据集中存在的所有原子类别，然后将它们添加到词汇表中，并移除原子的子类别以进行进一步的调整。读取完所有的SMILES，通过记录数据集中每个SMILES中的原子的位置Pi，用自适应特征生成器BiLSTM获得药物的嵌入特征。上述设计保证了药物中的每个原子都可以通过特征生成器获得一对一的节点特征。

NHGNN-DTA使用基于序列的特征生成器提取DP对的序列信息，HGNN模型的性能取决于特征提取器的输出。在HGNN训练之前对特征生成器进行了预训练。

接着，创建氨基酸和原子节点的混合图。对于药物图，使用RDKit获得原子之间的化学键相互作用作为图结构的边，构建药物分子图Gd。为了构建蛋白质图，使用pconsc4生成蛋白质中残基之间的距离矩阵。然后，通过设置距离阈值，将距离小于该阈值的两个残基视为接触点，得到一个接触图，将其视为蛋白质图Gp。然后将药物图Gd和蛋白质图Gp融合成一个混合图Gh。设计一个特殊的中心节点，将Gd和Gp的节点连接起来，作为信息交换的桥梁，如图1下半部分所示。

为了使消息能够在图结构中传递，每个节点需要一个特征向量来表示自己。通过具有BiLSTM输出的基于序列的特征生成器获得药物和蛋白质嵌入。选择在SMILES开头特别标记“[CLS]”的嵌入和序列嵌入作为中心节点的特征。它被设计用来捕获输入序列的全局表示。由于特征生成器中药物hd和蛋白质hp的特征具有相同的维数，可以直接使用两个“[CLS]”嵌入的平均值作为中心节点的特征。因此，中心节点可能具有可以表示整个混合图的特征。然后，使用多层GIN对混合图的消息传递进行处理。

HGNN模型的输入依赖于特征生成器的输出。模型共同训练预训练的特征生成器（损失为Opre）和HGNN（损失为Og），设置一个超参数θ，得到的最终损失O = Og∗θ + Opre∗(1−θ)。

超参数θ的作用是平衡特征生成器和HGNN的贡献。通过联合训练，特征生成器可以在训练过程中根据GNN的反向传播对节点特征进行再次更新过程，使节点特征成为更好的GNN特征。模型在BiLSTM层之后增加了一个LayerNorm层，以确保特征的分布不会有明显的变化。此外，将特征更新间隔频率设置为多次迭代而非单次迭代，以确保模型可以收敛速度更快，保持氨基酸和原子节点特征的自适应学习。

结果

作者将NHGNN-DTA与多种方法进行对比，分别使用Davis（表1）和KIBA（表2）数据集对这些方法的预测性能进行了评估。采用均方根误差(MSE)、一致性指数(CI)和皮尔逊相关系数（r2）来衡量预测效果。NHGNN-DTA在两个数据集上都表现最好（最高的r2和CI，最低的MSE，横线表示仅次于NHGNN-DTA的结果）。

表1 在Davis数据集上与其他方法对比

表2 在KIBA数据集上与其他方法对比

作者设计了模型消融实验，Davis数据集的消融实验结果如表3。“wo HGNN”是指仅使用特征生成器进行DTA预测，“wo pretraining”意味着直接训练整个模型，而不预训练特征生成器，“wo feature update”表示不更新节点特征，“full”表示使用完整模型。NHGNN-DTA比消融模型性能更好，这表明，结合HGNN、预训练和序列特征，可以提高DTA预测性能。

表3 消融实验

作者还进行了案例分析，选择了两个代表性的蛋白质配体复合物来可视化构建的模型的注意力贡献。图2的上半部分为MAP激酶p38 α及其结合配体吡啶酰咪唑（pyridinylimidazole）抑制剂(PDB ID: 1OUK)，下半部分为蛋白fms样酪氨酸激酶3蛋白及其结合配体奎扎替尼（quizartinib）抑制剂(PDB ID: 4XUF)。

图2显示了DP对的注意力权重的可视化。上半部分为1OUK，左半部分为蛋白质接触图及相应的权重。在晶体结构中，注意权值的前20个残基在右侧以红色和青色突出显示，其中红色为NHGNN-DTA正确捕获残基的区域，青色为错误捕获残基的区域。该蛋白的L108-G110和L167-G170位点位于高兴趣位置，这个数量落在对接口袋中。在三维位姿中，确定的相互作用残基M109和D168权重较高。此外，L129-138L的位置正好落入另一个潜在的口袋。此外，模型还错误地捕获了不在对接口袋中的残留区域V273-277A。在二维位姿中，药物的子结构注意值以红色突出显示。同时，药物的注意权重主要集中在原子2和原子25上，对应与蛋白质形成相互作用的关键的氮原子。

图2的下半部分为4XUF的结构，蛋白质注意力权重最高的位置是在对接口袋中的C828-G831。然而，G905和F906的非对接口袋区域被错误捕获。该模型正确捕获了与配体相互作用的关键残基F830和D829。药物重量主要集中在氧环和苯环上，对应于相互作用的蛋白残基。尽管该模型错误地捕获了一些区域，但NHGNN-DTA仍然可以关注大多数对接位点和相关药物亚结构，表明其可解释性和探索潜在DTA的能力。

图2 案例分析

总结

在本文中，作者提出了一种可以自适应生成特征的混合GNN，NHGNN-DTA，来进行DTA预测。与基于序列的方法不同，NHGNN-DTA通过构建包含氨基酸和原子节点的混合图来利用药物和蛋白质结构。与基于图的方法不同，该模型通过构建特征生成器来实现节点特征的自适应更新，从而在图的层面上增加药物与蛋白质之间的信息交互。

总的来说，NHGNN-DTA克服了基于序列的方法无法获取图的结构信息和基于图的方法无法构建合适的节点特征的问题。大量实验表明，与最近的方法相比，NHGNN-DTA在两个基准数据集上取得了显著改进。通过注意力可视化和案例分析，验证了该模型捕获子结构信息的能力。未来的工作将集中在生成潜在的DP对以加速药物发现的过程。

参考资料：

[1] He et al. NHGNN-DTA: a node-adaptive hybrid graph neural network for interpretable drug–target binding affinity prediction. Bioinformatics. 2023