分享

J Cheminform. | 从指纹重建无损的分子表示

 DrugAI 2023-04-02 发布于韩国

本文探讨了通过结构指纹重建的SMILES和SELFIES分子表示法在化学和自然语言处理(NLP)应用中的分辨率和稳健性。通过高精度地恢复指纹转换过程中丢失的连接信息,实现了看似不可逆的分子到指纹转换。四种结构指纹,即扩展连接性、拓扑扭曲、原子对和原子环境,可作为化学NLP应用的输入和输出。研究结果将促进基于文本或指纹的化学信息学模型在生成和翻译任务中的发展。

背景介绍

SMILES虽然是现在应用最广泛的分子表示法之一,但其脆弱的语法很容易产生无效的SMILES字符串,并且该表示法从化学角度看并不完全可解释。近期有多项研究探讨了将扩展连接指纹(ECFP)转换为SMILES表示。这些研究表明ECFP可以作为生成SMILES表示分子结构的起点,通过直接预测或遗传算法和进化设计技术实现。

该研究探讨了将指纹反向转换为分子的方法,以克服结构指纹在NLP模型中应用的显著限制。分子指纹可生成具有解释的独立标记,且适用于注意力机制。此外,基于注意力的模型(如Transformer)能处理指纹的非连接特征。该研究旨在证明从分子指纹重建分子是一种实用且高度准确的方法,可应用于多种化学领域。并使用五大类别下的十三个结构指纹示例来说明提出方法的有效性,表明某些指纹可以直接用于NLP场景,从而作为SMILES和SELFIES表示的替代方案。

模型概述

本研究采用了基于Transformer的模型,利用注意力机制学习输入和输出之间的全局依赖关系,并消除了对输入序列顺序的依赖。这使得基于Transformer的模型适合研究指纹到分子的转换。使用了一个包含ChEMBL和PubChem化合物的大型数据集,共计5,050,000个小型和中型分子,以最大限度地代表类药化学空间。从这个大型数据池中,随机挑选了50,000个分子用于测试。Figure 1展示其训练数据集的归一化分子量分布,以及几个药物和天然产物库的比较。为了获得更真实的结果,本研究使用了一个保留立体化学信息的具有挑战性的数据集。

Figure 1 训练数据集的归一化分子量分布,以及一些药物和天然产物库,如KEGG药物数据库、DRUGBANK和通用天然产物数据库(UNPD)。训练数据集包括500万个大约50个重原子或更少的中小型分子,最大限度地代表了可用的类药物化学空间。

结果展示

模型性能

Figure 2 每个结构指纹与SMILES(左)和SELFIES(右)对应的转换精度。

Figure 2比较了各种结构指纹转换为SMILES和SELFIES字符串的准确性,结果显示SMILES转换的准确性优于SELFIES转换。在两种翻译尝试中,ECFP4的表现最佳,准确性最高达到93.1%,表明模型在固定长度向量内反映了片段特异性的最佳水平。ECFP4、TT、HashAP和AEs的表现具有竞争力,而MACCS(不包括ECFP0)表现最差。值得注意的是,ECFP0试图仅使用100个标记来表示500万个分子,在翻译任务中表现不佳。此外,稀疏版本在同一指纹的表现优于哈希版本,如TT-HashTT和AEsECFP2对。在训练过程中,结构指纹在SMILES和SELFIES重建方面表现出不同的动态特性。与SELFIES相比,SMILES在较低的步数下实现了近收敛(从100K步后的相对条形高度可以看出学习速度更快)。因此,SMILES语法结构可以更高效的学习,弥补了表示形式的脆弱性。另一方面,SELFIES的整体准确性下降以及达到收敛所需的更大步长表明,指纹与SELFIES标记之间的相关性弱于指纹与SMILES标记之间的相关性。Avalon在SELFIES预测中的表现与一般性能趋势不同,这可能是由于其不寻常的累积分布函数(CDF)。

均值Tanimoto分数(Tc)反映了整体转换质量,但对于不同类型的指纹,相似性指标通常具有不同的尺度,因此不宜将特定相似性值作为各种指纹性能评估指标。为了在公平的框架下进行全局比较,该研究生成了所有指纹的累积分布函数(CDFs),并获得了具有0.99显著性的Tc值。Figure 3展示了在[25K-500K]训练步长区间内的平均Tc分数(垂直线),并在0.01的固定p值下(水平线)。性能较高的指纹具有较低的参考显著性分数的Tc值和较高的收敛处的平均Tc值。ECFP4-SMILES转换的总体结果最佳,平均Tc值为0.98。

为了最小化选择偏差,使用了多种指纹。通过15种不同的指纹(包括ECFP2和ECFP4的显式位向量类型)计算的Tanimoto精确度,结果显示ECFP4-SMILES模型具有高性能和稳健性。最终,模型(如ECFP4、TT及其哈希变体、HashAP、ECFP2和AEs)在相似性度量选择上表现相似。

Figure 3 每种转换类型的平均Tanimoto系数以及评估结构性指纹实际表现的参考意义分数。

Top-1 准确率

Table 1展示了基于Tanimoto精确度的最佳性能结构指纹在50K测试集上的前1准确性结果的完整细分,将总准确性分为主要组成部分,并使用简单的字符串比较。结果表明,模型考虑了立体化学信息,但在准确描述相对原子方向方面存在困难。对于性能最佳的指纹ECFP4,立体化学误差约为20%。其进一步检查了立体化学不一致的预测,通过移除立体化学信息来判断它们与真实数据的字符串准确性。

为了研究SMILES的全部能力,本研究的数据集在训练前没有进行规范化处理。模型可以产生与真实SMILES表示相等的非规范实例,预测化学等价SMILES表示的比率根据指纹类型变化在1.6%到4.8%之间。此外,值得注意的是,Kekule形式在非规范预测中起着重要作用,因为Kekule表示的切换会改变SMILES的枚举。如预期的那样,SELFIES在无效率方面提供了稳健的转换,没有无效案例。而SMILES在无效率方面表现相当好,只有0.2-0.3%。

Table 1 基于Tanimoto精确度的最佳性能结构指纹在50K测试集上的前1准确性结果。

可解释性

在这项研究中,作者使用集成梯度和注意力权重来分析翻译模型的相关特征,以便更好地解释输入特征与预测之间的关系。集成梯度作为一种基于梯度的特征重要性度量,能更可靠地揭示相关特征,而注意力权重则被视为解决可解释性问题的有价值的补充工具。通过Figure 4,可以从两个方面对这些特征之间的关系进行解释:

(1)列方向上的解释反映了输入特征对预测的影响。例如,在预测硝基(nitro group)的SMILES子串时,具有高度归因的原子环境(AEs)在第9和第11位置对结果产生显著影响。特别是位于第11位置的AE(半径为0),对硝基中的氧原子产生了决定性的贡献,因为带负电荷的氧原子与相邻的氧原子处于共振状态。

(2)行方向上的解释反映了归因于预测特定部分的显著输入特征。例如,在预测含有氯原子的部分时,具有较高注意力值的行突显了包含氯的三个原子环境,包括半径为0和1的中心原子。

通过这种方法,研究者能够深入了解模型中不同特征之间的相互关系及其如何影响预测结果,从而提高模型的可解释性。

Figure 4 (a)预测的SMILES的相关特征与(b)综合梯度和(c)注意权重矩阵得到的原子指数。

结论

本研究探讨了使用结构指纹作为分子表示的替代方法。通过利用高性能的指纹,以超过90%的精度成功地重建了分子。这表明结构指纹在恢复指纹转换过程中丢失的连通性信息后,可以在化学相关的自然语言处理应用中作为强大的表示工具。研究中采用了多种指纹类型,以公正地评估整体转换性能。结果表明,原子环境(AEs)、ECFP4、拓扑扭转和原子对指纹是分子自然语言处理工具的理想选择。

此外,本研究详细分析了每个指纹类型的准确性。这有助于揭示影响转换过程的关键因素,如立体化学。立体化学是当前模型的一个局限,需要进一步研究以解决这个问题。我们还通过评估用于计算和提取预测中最显著特征的方法,评估了转换方法的可解释性。归因图揭示了模型在重建分子时关注正确的片段。该研究有助于在深度生成建模和神经机器翻译领域开发更高效的化学模型,从而提高结果质量。

参考资料

Ucak, U.V., Ashyrmamatov, I. & Lee, J. Reconstruction of lossless molecular representations from fingerprints. J Cheminform 15, 26 (2023). 

https:///10.1186/s13321-023-00693-0

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章