分享

Briefings in Bioinformatics | 基于SMILES的药物分子表征深度模型和数据增强策略研究

 DrugAI 2022-04-19

今天给大家介绍国防科技大学吴诚堃副研究员、博士生张小琛、中南大学曹东升教授以及浙江大学侯廷军教授等人联合发表在Briefing in Bioinformatics上的一篇文章。作者利用深度模型,从分子的SMILES表示中学习面向分子性质预测的特征,从模型以及数据两个方面提出优化策略以提高预测能力。在模型方面使用双向LSTM模型以及多步注意力策略提高从SMILES表征中抽取隐含特征的能力。在数据方面,文章在训练阶段使用SMILES枚举策略增加数据的多样性并提高模型的泛化能力,同时预测阶段采用枚举平均的策略提高预测的准确性和稳定性。实验结果表明,文章所提出的方法能够显著提升模型预测性能,使得基于SMILES表征的分子性质预测模型在11个常用评测集合上(包括分类和回归两类任务)达到或超过SOTA水平。

1

背景

计算方法在药物研发中可以大幅降低成本, 目前已成为解决药物研究中如分子性质预测,药物-蛋白质相互作用预测,潜在药物发现和优化等问题不可或缺的手段。本质上,计算方法的主要目标是建立分子结构和感兴趣的分子性质之间的映射模型。关键挑战是对结构多样的分子生成具有足够表现力的分子表征。传统特征工程方法严重依赖专家知识来设计复杂的分子表征。目前精心设计的分子表征诸如分子指纹或者分子标记描述符,当与经典机器学习如SVM,RF和XGBoost结合,能够在特定任务上取得不错的效果。然而对于特定的分子性质,设计或选择合适的指纹/描述符,需要一定的知识以及实验积累。而且大多数基于特征工程的分子表征都针对特定的任务进行了优化,缺乏通用性。近年来,快速发展的深度学习技术在多种领域如图像分类,机器翻译和下围棋表现出了令人印象深刻的学习能力。深度学习方法可以自动在端到端的训练中从原始数据中提取有用的特征。这种数据驱动的方法可以大大减轻了对广泛专业知识的依赖,并表现出出色的灵活性和可扩展性。因此,学者对于使用深度学习模型自动学习分子表征进行分子性质预测进行了广泛的研究。分子的SMILES表征作以简便的方式编码分子的所有组成和结构信息,被广泛应用于化学信息学中的分子结构存储。然而由于高昂的获取成本,目前生物活性相关数据标注十分稀缺。这极大的限制了基于SMILES的深度神经网络模型的学习与预测能力,导致基于SMILES的模型无法达到传统模型以及基于分子图的模型的效果。

2

实验

针对这一现状,作者从模型以及数据方面提出多种策略增强模型预测能力。在模型方面,作者提出了基于BiLSTM的注意力网络,网络可以通过双向LSTM聚合来自SMILES正向以及反向的信息并利用多步注意力机制高效的提取性质相关特征。在数据层面,作者使用SMILES 枚举策略增加扩增训练样本数量以及多样性(图1)。

图1. 分子SMILES表征通常由分子图通过深度优先搜索展开得到,由于起始点以及方向的不同,同一分子通常有多种SMILES分子格式。

进一步的,作者把SMILES枚举策略应用到测试阶段,通过对化学分子生成多种形式SMILES进行预测并融合预测结果以获得最终预测。测试增强策略有助于纠正预测偏差并提供更可靠的预测。实验结果表明所提出策略可以有效地提高模型预测能力,在11项实际分子性质预测任务中(包括回归和分类任务)达到甚至超过了SOTA方法(图2)。

图2. 所提出模型与图神经网络以及基于指纹的机器学习模型的效果对比,(A)分类任务(B)回归任务。


文章也对数据增强的次数进行了研究,分别选择了不增强与扩增5,10,20,50,100进行实验,实验结果如图所示(图3)。可以看出模型效果随着扩增次数的增加而增加,但是到达一定次数后,模型表现不再增减。这表明数据扩增确实可以提高模型表现,但是当数据扩增到一定程度后,模型并不能持续收益。

图3 (A) 训练时在不同数据增强倍数下模型的表现。(B)测试时在不同数据增强倍数下模型的表现,此时,训练模型使用了50倍数据增强。

参考资料

Cheng-Kun Wu, Xiao-Chen Zhang, Zhi-Jiang Yang, Ai-Ping Lu, Ting-Jun Hou, Dong-Sheng Cao, Learning to SMILES: BAN-based strategies to improve latent representation learning from molecules, Briefings in Bioinformatics, 2021;, bbab327, https:///10.1093/bib/bbab327

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章