分享

Nat. Commun. | CCGNet:快速发现共晶结构的图神经网络

 DrugAI 2022-04-19

今天给大家介绍四川大学蒲雪梅教授课题组和李梦龙教授课题组在Nature Communications杂志在线发表,题为 Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materials的研究论文。作者在论文中提出了一个基于图神经网络的深度学习构架,CCGNet,快速预测共晶的构象。该框架在药物共晶、π–π共晶和高能共晶三个独立测试集上验证,准确度高于96%,证实其鲁棒性和泛化性。此外,作者还成功地合成了一种新的高能共晶物,展示了该模型在实际应用中的巨大潜力。

1

研究背景

共晶(CCs)是由两个或多个中性分子以一定的化学计量比通过非共价力组装而形成的一种单相结晶材料。共晶体通过低成本、结构灵活和solution-processing的非共价键形成功能分子,并为其提供新特性。因此,共晶工程已成为制药、化学和材料领域的有效设计策略。

共结晶仅发生在某些特定分子之间,因此如何选择构象是共晶工程的关键。但发现新共晶构象所需要的测定实验成本昂贵,因此低成本且通用的构象发现策略非常重要。鉴于机器学习(ML)的鲁棒性和图神经网络(GNN)的蓬勃发展,作者提出基于GNN的构象发现方法。但GNN对数据特征依赖较高且在不平衡数据上分类效果不理想。因此作者提出结合分子图和先验知识(12个分子描述符)对共晶进行表示,即将GNN和互补策略进行耦合,以实现更全面的共晶表示。同时,作者使用基于GNN的深度学习(DL)框架,将先验知识整合到在分子图上从而进行端到端学习。通过迁移学习,该框架可以有效地应用于CCs数据集上。作者将该框架命名为共晶图神经网络(CCGNet)。为了充分评估其性能,作者使用七种竞争模型进行比较,包括两种传统ML和五种DL模型。此外,CCGNet的鲁棒性和泛化性在三种不同类型的共晶(药物CCs、π-πCCs和高能CCs)上得到了强有力的验证。CCGNet在这三个独立测试集上获得了高准确率,显著优于竞争模型。最后,作者成功地合成了一种新的高能共晶体,进一步证实了CCGNet在实际应用中的潜力。

2

方法

2.1 模型

本文通过引入图神经网络和消息传递网络来构成CCGNet框架。如图一(c)所示,CCGNet由两个阶段组成,消息传递阶段和read out阶段,消息传递阶段的核心是Message Passing Neural Networks (MPNNs)。如图一(d)所示,MPNNs由N个CCGBlock (本文中有4个CCGBlock) 组成。CCGBlock包含两个可训练函数。ρ(u->v)是一个串联操作,用于将u的潜在表示嵌入到transformer中的原子向量v中。在read out阶段,进行串联操作以进一步融合多级特征,并将全局注意机制引入到read out函数,计算图级特征向量,使用原子向量的加权和而不是简单求和,如图一(e)所示。为了稳定自注意的学习过程并进一步优化潜在表示,本文构建了多头注意框架,该框架并行计算每个原子的k个独立注意力系数,生成k个独立表示,然后将它们连接到分子表示的向量上。在全局注意之后,本文将全局状态的潜在表示U与图嵌入连接起来,以进一步丰富信息。最后,如图一(c)中灰色方框所示,使用连续稠密层,进行共晶形成预测。

图1 CCGNet共晶筛选框架

如图一所示,首先处理在CSD和Pubchem上收集正样本和负样本(a)。然后将共晶体编码成三种特征矩阵:U,A和V(b)。最后使用GNN进行预测(c)。其中GNN中的CCGBlock(d)对U, A, V进行处理,CCGBlock包含一个Graph-CNN层传播和更新节点信息,一个单层感知机对全局信息U进行更新。GNN中的global attention(e)对更新后的节点信息进行聚合。

2.2 高能晶体预测模型

如图二所示,高能共晶预测模型基于CCGNet框架,包括CCGBlocks、多头全局注意力机制层和稠密层。首先应用CCs数据集对模型进行预训练。然后将CCs数据集上预训练的权重作为CCGBlocks、多头全局注意力和部分稠密层(蓝色虚线包围的框)的初始权重,称为权重迁移。然后,随机初始化最后两个稠密层(灰色框)。最后,使用高能共晶体(ECC)数据集对模型的所有权重进行微调。

图2 高能晶体的迁移学习流程图

3

实验

CCGNet使用开源ML框架TensorFlow构架。CCGNet输出二维向量[a,b],分别代表阴性和阳性类别的预测分数。如果b>a,则输出标记为阳性样本,反之则为阴性样本。分子示例图片由RDkit、OpenBabel和CCDC Python应用程序实现。作者在Nvidia RTX 2080ti GPU上训练模型。

3.1 药物共晶的独立测试

图3 模型在独立测试集上的表现

如图三所示,CCGNet在四种APIs(烟酰胺、卡马西平、吲哚美辛、对乙酰氨基酚)上获得了100%的分类准确率,可以完全正确的分类所有的正样本和负样本。

3.2 高能共晶体的应用和实验验证

图4 高能共晶体在独立测试集中的预测结果

如图四所示,CCGNet在四种APIs(烟酰胺、卡马西平、吲哚美辛、对乙酰氨基酚)独立测试集上的预测得分排名。可以看到CCGNet在四种高能共晶体构象预测任务上表现良好。

4

总结

作者开发了基于GNN的DL模型,该模型利用数据特征进行共晶预测。通过从文献中收集的1052个负样本(以最小化假阴性)和从CSD收集6819个正样本,获得了可靠的共晶体数据集。该模型通过与七个竞争模型(包括传统的ML和经典图神经网络在内)比较,并在三种不同的样本外测试(药物CCs、π–πCCs和高能CCs)集上得到了有力的验证。得益于互补的特征表示和灵活的GNN的框架,模型在不平衡数据集中的表现大大优于七个竞争模型。CCGNet在处理来自不同共晶空间的不同数据作为未知数据的情况下,达到了>96%的高预测精度,表现出较强的鲁棒性和泛化性。最后,对CL-20/1-甲基-4-硝基吡唑新型高能共晶体的实验验证进一步证实了模型的可靠性和在实践中的潜力。结果证实了嵌入重要的先验知识可以提高DL的性能,特别是对于有限的可用数据集。CCGNet所展示的技术优势,包括数据扩充、特征表示和灵活的模型架构,以及注意力机制和迁移学习,可以为DL在实践中的应用提供有益的指导。作者整合ensemble模型为一个pipeline,可以为定义的化合物对提供高通量筛选,并自动生成报表。

参考资料

Jiang, Y., Yang, Z., Guo, J. et al. Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materials. Nat Commun 12, 5950 (2021). 

https:///10.1038/s41467-021-26226-7

论文链接:

https://www./articles/s41467-021-26226-7?utm_source=dlvr.it&utm_medium=twitter

代码链接:

https://github.com/Saoge123/ccgnet

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章