背景 方法 NHGNN-DTA首先对药物的SMILES和蛋白质的序列进行编码。为了获得药物中每个原子的相应嵌入,作者设计了一个标记器,它在原子水平上进行编码,从而确保嵌入对应于原子或化学键。如图1上半部分所示,使用BiLSTM作为主要的特征生成器主干。该方法可以有效地同时提取药物的SMILES和蛋白质序列特征。将药物和蛋白质特征转移到线性注意力层中。为了丰富注意力的多样性,采用多头注意力机制,得到药物和蛋白质对应的输出。为了提高药物-蛋白质(DP)对在序列水平上的相互作用,将两个线性注意力的输出连接起来。然后将连接的载体进一步传输到总线性注意力层,实现药物与蛋白质之间的信息交互。最后,将融合输出馈送到全连接层,得到DTA预测。 在以往的基于序列的DTA预测方法中,药物的SMILES作为一个完整的序列传递到分词器中输入后,获得的token是基于自然语言处理的分词方法,如n-gram。然而,SMILES可能包含一些原子,这些原子不应该像普通文本那样根据频率和其他属性进行拆分。例如,“Cl”应该是氯原子的符号,而不是分为“C”和“l”。因此,拆分方法的使用在导致分词器分词过多,可能破坏药物分子的完整信息。为此,作者设计了一个特殊的原子级标记器,以确保可以获得原子一对一的标记。首先,使用RDKit工具获取数据集中存在的所有原子类别,然后将它们添加到词汇表中,并移除原子的子类别以进行进一步的调整。读取完所有的SMILES,通过记录数据集中每个SMILES中的原子的位置Pi,用自适应特征生成器BiLSTM获得药物的嵌入特征。上述设计保证了药物中的每个原子都可以通过特征生成器获得一对一的节点特征。 NHGNN-DTA使用基于序列的特征生成器提取DP对的序列信息,HGNN模型的性能取决于特征提取器的输出。在HGNN训练之前对特征生成器进行了预训练。 接着,创建氨基酸和原子节点的混合图。对于药物图,使用RDKit获得原子之间的化学键相互作用作为图结构的边,构建药物分子图Gd。为了构建蛋白质图,使用pconsc4生成蛋白质中残基之间的距离矩阵。然后,通过设置距离阈值,将距离小于该阈值的两个残基视为接触点,得到一个接触图,将其视为蛋白质图Gp。然后将药物图Gd和蛋白质图Gp融合成一个混合图Gh。设计一个特殊的中心节点,将Gd和Gp的节点连接起来,作为信息交换的桥梁,如图1下半部分所示。 为了使消息能够在图结构中传递,每个节点需要一个特征向量来表示自己。通过具有BiLSTM输出的基于序列的特征生成器获得药物和蛋白质嵌入。选择在SMILES开头特别标记“[CLS]”的嵌入和序列嵌入作为中心节点的特征。它被设计用来捕获输入序列的全局表示。由于特征生成器中药物hd和蛋白质hp的特征具有相同的维数,可以直接使用两个“[CLS]”嵌入的平均值作为中心节点的特征。因此,中心节点可能具有可以表示整个混合图的特征。然后,使用多层GIN对混合图的消息传递进行处理。 HGNN模型的输入依赖于特征生成器的输出。模型共同训练预训练的特征生成器(损失为Opre)和HGNN(损失为Og),设置一个超参数θ,得到的最终损失O = Og∗θ + Opre∗(1−θ)。 结果 表1 在Davis数据集上与其他方法对比 表2 在KIBA数据集上与其他方法对比 表3 消融实验 作者还进行了案例分析,选择了两个代表性的蛋白质配体复合物来可视化构建的模型的注意力贡献。图2的上半部分为MAP激酶p38 α及其结合配体吡啶酰咪唑(pyridinylimidazole)抑制剂(PDB ID: 1OUK),下半部分为蛋白fms样酪氨酸激酶3蛋白及其结合配体奎扎替尼(quizartinib)抑制剂(PDB ID: 4XUF)。 图2显示了DP对的注意力权重的可视化。上半部分为1OUK,左半部分为蛋白质接触图及相应的权重。在晶体结构中,注意权值的前20个残基在右侧以红色和青色突出显示,其中红色为NHGNN-DTA正确捕获残基的区域,青色为错误捕获残基的区域。该蛋白的L108-G110和L167-G170位点位于高兴趣位置,这个数量落在对接口袋中。在三维位姿中,确定的相互作用残基M109和D168权重较高。此外,L129-138L的位置正好落入另一个潜在的口袋。此外,模型还错误地捕获了不在对接口袋中的残留区域V273-277A。在二维位姿中,药物的子结构注意值以红色突出显示。同时,药物的注意权重主要集中在原子2和原子25上,对应与蛋白质形成相互作用的关键的氮原子。 图2的下半部分为4XUF的结构,蛋白质注意力权重最高的位置是在对接口袋中的C828-G831。然而,G905和F906的非对接口袋区域被错误捕获。该模型正确捕获了与配体相互作用的关键残基F830和D829。药物重量主要集中在氧环和苯环上,对应于相互作用的蛋白残基。尽管该模型错误地捕获了一些区域,但NHGNN-DTA仍然可以关注大多数对接位点和相关药物亚结构,表明其可解释性和探索潜在DTA的能力。 总结 在本文中,作者提出了一种可以自适应生成特征的混合GNN,NHGNN-DTA,来进行DTA预测。与基于序列的方法不同,NHGNN-DTA通过构建包含氨基酸和原子节点的混合图来利用药物和蛋白质结构。与基于图的方法不同,该模型通过构建特征生成器来实现节点特征的自适应更新,从而在图的层面上增加药物与蛋白质之间的信息交互。 总的来说,NHGNN-DTA克服了基于序列的方法无法获取图的结构信息和基于图的方法无法构建合适的节点特征的问题。大量实验表明,与最近的方法相比,NHGNN-DTA在两个基准数据集上取得了显著改进。通过注意力可视化和案例分析,验证了该模型捕获子结构信息的能力。未来的工作将集中在生成潜在的DP对以加速药物发现的过程。 [1] He et al. NHGNN-DTA: a node-adaptive hybrid graph neural network for interpretable drug–target binding affinity prediction. Bioinformatics. 2023 |
|