【原】BIB｜Mol2Context-vec：从情境感知中学习分子表征用于药物发现

智药邦 2021-09-12

展开全文

今天给大家介绍的是Briefings in Bioinformatics上的文章 "Mol2Context-vec: learning molecular representation from context awareness for drug discovery"。

具有化学直觉力(chemical intuition)的高质量的分子表征，有助于解决药物发现范围内的许多问题。目前，分子表征仍然面临着一些亟待解决的问题，如子结构的多义性和原子基团之间的信息交流不畅等。在这项研究中，作者提出了一个深度的语境化的Bi-LSTM架构，Mol2Context-Vec，它可以集成不同级别的内部状态，以带来分子子结构的动态表示。所获得的分子上下文表征可以捕捉到任意原子基团之间的相互作用，特别是拓扑上相距较远的一对原子基团。实验表明，Mol2Context-Vec在多个基准数据集上实现了最先进的性能。此外，Mol2Context-Vec的视觉解释非常接近人类所理解的化学分子的结构性。这些优点表明Mol2Context-Vec可作为可靠且有效的分子表达工具。

1.研究背景

分子表征是建立可靠的定量构效关系(QSAR/QSPR)的基础。分子结构通常由原子间的相互作用和复杂的电子构型组成，原子的空间位置由物理定律决定。拓扑距离较近的原子相互作用的机会更大，在某些情况下，它们还可以形成官能团。然而，在拓扑距离较远的原子对之间也可能存在显著的相互作用，例如分子内氢键。

对于Mol2vec，Neural FP和GCN模型，在沿着键迭代展开的过程中，相邻原子对中心点的影响随着拓扑距离的增加而减小，拓扑距离较长的原子对之间的相互作用没有被充分提取。这种分子表达方式阻碍了长距离原子对的信息流。而且，无论分子结构是什么，对于一个给定的亚结构的原子团，只有一个固定的矢量表示，这显然不符合化学直觉。

Weave和MPNN模型建议将虚拟边链接到分子图中的每个原子，这意味着任何两个原子对都可以相互作用，而不受距离的限制。然而，这种方法会导致所有原子对的影响被平均，不能充分描述分子图中原子之间的信息流。

高质量的分子表示应该完美地提取相邻原子对中心原子的影响，以及拓扑上相距较远的原子对之间包含的丰富信息。前者模拟分子中原子基团中心对靶原子的局部影响，从而了解原子基团对化合物性质的影响。后者隐含地捕捉了不同原子团之间的相互作用，使模型能够根据分子结构动态调整原子团的表示，并能有效地学习分子的全局特征。这种分子表达具有化学直觉，为深入理解分子的功能和性质提供了信息，这对于下游的生物和化学应用是必不可少的。

作者提出了一种新颖的深度上下文化双向长短期记忆（Bi-LSTM）架构（图 1），Mol2Context-vec，它可以整合不同层次的内部状态，带来丰富的分子结构信息。

图1 Mol2Context-vec的网络架构和步骤概述。

2.方法

模型

Mol2Context-vec 的结构采用了深度Bi-LSTM。低层 LSTM状态建模原子基团内部的局部信息，高层的LSTM状态捕捉分子的语义信息，代表原子基团间相互作用的高维特征。分子上下文表征指可以考虑远距离原子对之间的相互作用，并且可以根据分子结构的上下文动态调整特定原子团的表征。此外，深度Bi-LSTM架构允许无监督学习，可以轻松集成到各种下游生物化学应用任务中。

Mol2Context-vec使用两阶段训练过程。在第一阶段，它使用具有大规模分子SMILES的语料库进行预训练；在第二阶段，当应用下游生化任务时，从预先训练的深度Bi-LSTM网络的中间层提取相应分子子结构的上下文嵌入作为输入并发送到下游任务以完成相应的药物发现任务。而且根据不同的下游任务，参与分子表征的多层LSTM状态的权重可以动态调整，以帮助模型为每个任务选择最有用的LSTM内部状态。

图2 Mol2Context-vec体系结构，包括多层Bi-LSTM和基于任务的权矩阵。

数据预处理

类似于NLP中的单词嵌入技术，作者将整个分子视为一个句子，将分子中的子结构视为一个单词。分子中的亚结构识别符是通过摩根算法得到的。以某个原子为中心，以给定的尺寸为半径，可以得到一个子结构。然后，通过散列运算，生成包含相应原子团的化学信息的标识符。最后，通过以这种方式沿着分子结构迭代延伸，获得分子中所有亚结构的标识符，如图3所示。

图3 羟基硫脲结构上的摩根标识符序列示意图。第一行和第二行分别是半径为0和1的标识符。

为了探索子结构尺寸对模型的影响，作者分别生成半径为0和1的Morgan标识符。包含开始和结束标识符的最终词汇表分别具有119和13574个标识符。与Mol2vec不同，由于Morgan算法获得的标识符是高维稀疏向量，因此在将其输入到Bi-LSTM网络之前，作者将其映射到从0开始的一组向量。此外，出现次数少于三次的标识符被字符串'unk'取代，这增加了模型预测未知新化合物的稳定性。

3.实验和讨论

预训练化合物数据集

ZINC 20数据库的子集是Mol2Context-VEC预训练模型的语料库，经预处理后大约有900万个化合物。

下游任务数据

使用了与MoleculeNet、Attensible FP等相同的数据集设置。对所有数据集进行5次交叉验证训练。数据随机分为五部分，其中80%用于训练，其余20%随机分为验证集和测试集。即训练、验证和测试集分别占整个数据集的80%、10%和10%。

预测物理化学性质

在ESOL、FreeSolv和LiPOP三个基准数据集上，性能最好的模型分别是CMPNN和D-MPNN。在这一比较中，只有CMPNN在ESOL基准数据集上取得了领先的性能。

图4 在三个与物理化学任务相关的基准数据集上评估。RMSE值越低，性能越好。

其他基于深度学习的模型与基于描述符的模型的性能差异不显著，从而作者认为：基于深度学习的模型与基于描述符的模型的性能差异不显著，前者比后者更好这一点仍然存在争议。许多基于深度学习的模型将分子FP与通过卷积获得的分子特征相结合以获得更好的性能，例如，D-MPNN通过将计算得到的分子级特征与通过卷积获得的分子特征相结合的混合表示来学习特定任务的编码。描述符可以看作是先验知识，包括分子指标或化学直觉。分子的物理化学性质可能与某一指标直接相关，如水溶性与TPSA、LogP高度相关。用单一的SMILES序列可能很难学习到这一先验知识。在此基础上，将Mol2Context-vec生成的上下文向量与关注FP编码的原子相结合，得到复合向量。可以看出Mol2Context-vec+FP在这三个数据集上的性能有了显著提高。

生物活性和生理学预测

大多数生理和生物物理数据集每项任务的样本都很少。但Mol2Context-vec可以在大规模分子语料库上进行无监督的预训练，生成的上下文向量作为下游任务模型的输入，参与具体任务的监督训练，可以看作是一种域转移。Mol2Context-vec在与生物活性和生理学相关的八个数据集中的七个上实现了新的SOTA性能，证明了作者的方法在促进分子表示学习方面的竞争力。

图5 与以往的9种方法相比，该方法对生物活性和生理相关数据集的预测性能(随机分裂)更好。

量子力学性质预测

量子力学对于理解分子结构和性质是必不可少的。由于DFT方法计算量大，研究人员开发了许多机器学习模型，并将其应用于分子量子性质预测。作者在QM9量子力学基准数据集(表1)上评估了Mol2Context-vec和其他方法的性能。

表1 QM9数据集量子特性(随机分裂)预测性能的比较

Mol2Context-vec在量子属性预测任务中取得了惊人的表现，平均MAE仅为1.93，性能仅次于TrimNet_b。在仅使用SMILES序列作为输入的情况下，Mol2Context-vec的整体性能与基于图的模型相当，这表明Mol2Context-vec可以隐式地从SMILES序列中学习与支架和构象相关的信息。TrimNet、Attensitive FP和D-MPNN等使用了一套手工设计的特征，TrimNet_b提供了更多的边缘特性，包括原子的距离、角度和一些电子特征，也使用添加了氢化的全连通分子图。

这些手工设计的特征包含了分子三维构象空间的信息，因此TrimNetb可以获得最好的模型性能也就不足为奇了。Mol2Context-vec不依赖于特定规则的特征映射，它可以在大量原始SMILES的基础上无监督地建立预先训练的模型，生成上下文感知的分子表示，并将学习到的知识转化为对各种分子性质的预测。

化学直觉和化学解释

能够对模型的结果进行解释在药物发现中的应用至关重要。预先训练的Mol2Context-vec可以用来确定哪些输入特征对给定的预测贡献最大，这将增强对分子生物活性、生理和毒性等潜在因素的理解。

图6 Mol2Context-vec对苯妥英的化学直观解释。(a)苯妥英的原子相似矩阵热图。(b)苯妥英分子结构中每个原子的可视化对溶解度的贡献。

在图6中，(a)是苯妥英的原子相似矩阵的热图，原子相似矩阵将苯妥英中的原子分成两个簇，一个乙内酰脲(原子0-6)和一个二苯基(原子7-18)，(b)是苯妥英分子结构中每个原子对溶解度的贡献可视化。深紫色原子与亲水性有较高的相关性，浅绿色原子与疏水性有关，这分别与二苯基和乙内酰脲的亲水性和疏水性相一致。此外，为了进一步探索亚结构的动态表示，在预测分子亲水性的任务中，作者选择了羟基(-OH)、氨基(-NH2)和硝基(-NO2)三个亚结构的上下文表示来验证消歧效果。以“-OH”为例，这是一个高度模糊的亚结构，在不同的分子中扮演不同的角色。作者通过t分布随机邻居嵌入(t-SNE)将高维上下文向量缩减到3D嵌入空间，如图11中间所示。不同的颜色代表不同的原子基团(红色，硝基；蓝色，羟基；紫色，氨基)。从图中可以看出，亲水性氨基和疏水性硝基在空间上完全分离。羟基分为两部分，分别与硝基和氨基混合。

图7 t-SNE将三个子结构的高维上下文向量简化到三维嵌入空间，并可视化从Mol2Context-vec模型中学习到的8个分子的注意力权重。

邻苯二酚和对苯二酚的结构相似，只有两个羟基的位置不同。但在水溶性方面邻苯二酚的溶解度明显低于对苯二酚，说明羟基存在歧义。从图7中的可视化结果可以观察到，Mol2Context-vec正确地分离了这两种类型的羟基。在邻苯二酚和对苯二酚的分子热力图中，与我们的化学直觉相似，该模型赋予羟基较高的关注度。邻苯二酚和对苯二酚的羟基分别形成分子内氢键和分子间氢键，从而使两者的水溶性有较大差异。另一个有趣的发现是，2-氟苯甲酸酯中的F9原子受到了最高的关注。从溶解度的角度来看，F原子不是决定溶解度的关键原子，之后作者推测F原子和-OH之间可能形成了分子内氢键，而-OH又构成了一个6环中间体。6环中间体稳定了分子的构象，从而降低了2-氟苯甲酸酯与水的结合能力。

4.结论

在本文中，作者提出了一种新的分子表示方法，Mol2Context-vec，它取得了令人印象深刻的性能。Mol2Context-vec采用分层结构的多层LSTM网络模型。通过将多层LSTM的内部状态与特定任务的权重矩阵进行线性组合，得到最终的分子表示。此外，Mol2Context-vec还提供了非常接近人类理解的化学分子结构特性的视觉解释。与以往的方法相比，Mol2Context-vec证明了它的可行性和竞争力。

参考资料

Lv Q, Chen G, Zhao L, et al. Mol2Context-vec: learning molecular representation from context awareness for drug discovery[J]. Briefings in Bioinformatics,2021.,bbab317, https:///10.1093/bib/bbab317