分享

【化学信息学】性质预测中的分子表征分析

 GoDesign 2022-08-17 发布于北京

今天给大家介绍的文章是今年7月份麻省理工大学Kevin Yang等人在Journal of Chemical information and Modeling上发表的Analyzing Learned Molecular Representations for Property Prediction该文使用了一种改进后的图卷积模型D-MPNNDirected Message Passing Neural Networks)在19个公开数据集和16个药企内部数据集进行分子性质预测,大面积超过之前在各个数据集上的最好模型。

——背景——

分子性质预测作为化学信息学中最基本的任务之一,近年来因为深度神经网络的成功得到了迅猛的发展。其中最常见的QSAR(Quantitative structure–activity relationship)模型主要是指将分子表征(如分子指纹、分子描述符、图卷积编码后的特征)作为输入,利用神经网络等机器学习模型进行分类和回归,目前已经取得相当高的准确率。但是仍有一些未解决的问题存在,比如分子表征的选择、不同方法之间的泛化能力的评估、过拟合问题。Yang等人正是试图回答这些问题。

——方法——

D-MPNN是一种图卷积神经网络模型,同MPNN一样具有消息传递和状态更新两个阶段,但是D-MPNN传递的信息不再是各原子之间的关联而是各个键之间的联系。这样就可以避免因为信息传递中重复,如图1中D-MPNN只会将节点1到节点2的信息传递给节点3和节点4,而MPNN则仍会向节点1传递信息造成不必要的循环出现。D-MPNN的具体更新公式为

其中v,w分别为键的两个节点,指的是t时刻kv所成键的隐状态,是提前预设的信息传递函数,为更新函数,由神经网络学习得到参数图1. D-MPNN中信息传递示意图(a)红色键的隐状态由橙色键传入的信息进行更新(不会像MPNN一样在节点2的信息还会包括节点1的信息)(b)紫色键的隐状态由绿色键传入的信息进行更新(c)红色键隐状态更新的具体展示。

文中共在19个公开数据集和16个数据集数据上进行测试,并对数据的分子进行去重等预处理,具体见表1、2。文章中使用的输入是D-MPNN的变体结合RDKit计算的200个全局特征。为了展示D-MPNN的效果和比较不同的分子特征,文章对比了D-MPNN与以往各数据库的最好模型、二进制摩根分子指纹输入的随机森林模型、以及具有与D-MPNN更新部分相同结构的FFN(Feed-forward networks)但是输入分别为二进制摩根分子指纹、RDkit计算的描述符、可数的摩根分子指纹等多个模型的结果。

表1. 19个公开数据集统计

表2. 16个内部数据库统计

——结果——

D-MPNN与MoleculeNet中每个数据库的最好模型比较结果如图2所示。可以看到在回归任务中,D-MPNN大部分优于MoleculeNet中的结果,除了QM9和PDBbind的数据库。文中认为是因为MoleculeNet中对于这两个任务使用了3D信息,但是D-MPNN只是用了2D信息,而且D-MPNN模型结果优于MoleculeNet中对于PDBbind和QM9的最优图模型的结果。而在分类任务中,D-MPNN同样优于其他模型,除了MUV数据库和HIV数据库,文章认为是因为MUV数据过于不平衡,正样本数据只占0.2%。

图2. D-MPNN与MoleculeNet中的结果比较:(a)回归模型;(b)分类模型

对于内部数据库,D-MPNN也是明显优于其他模型,如图3。为了排除调参的影响,文章将D-MPNN与其它各模型使用相同的超参数进行比较,其中还加入集成技巧(Ensemble),结果如图4所示。可以看到D-MPNN仍然明显优于其他结果。

图3. D-MPNN与其他模型在BASF数据集上的结果

图4. D-MPNN与其它模型在公开数据集比较结果(a)回归模型;(b)分类模型

文章还对了模型计算结果与真实实验的结果比较,如图5所示。可以看到模型模拟计算的结果与真实实验数据还是有很大的差距。后续还分析了random、scaffold等不同的数据集的划分方式,得到scaffold与真实的时间划分更加接近的结论。此外文章还对比了分别使用原子、无向边、有向边(键)进行信息传递的结果,得出基于有向边的信息传递才能得到更好的效果的结论。

图5 计算模型与实验结果的比较

——小结——

该文章共在19个公开数据库和16个内部数据库上做了超过850次计算实验。D-MPNN在19个公开数据集上有12个超过原来的最好结果,且剩余的7个任务并没有一个单独的模型可以都是达到最优。同时在16个内部数据库的实验上D-MPNN也都取得了优秀的结果。该文章进行了大量的分析,给相关的性质预测提供了一个评估框架,并且在一定程度上验证了使用D-MPNN的学习到的特征有效性,超出了其他的分子表征结果。当然,D-MPNN还仍有许多问题需要解决,其中包括对于MUV这种极度不平衡的数据预测,以及如何整合3D信息进一步提高模型结果。最后,文章也提到虽然模型上都取得了优秀的结果,但是同真实实验还是有一定的差距,而这才是分子性质预测任务需要解决的终极目标。

参考文献:

Yang, Kevin, et al. "Analyzing Learned Molecular Representations for Property Prediction." Journal of chemical information and modeling (2019).

DOI: https:///10.1021/acs.jcim.9b00237
Code: https://github.com/swansonk14/chemprop

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多