分享

Nat. Comput. Sci. | 通过图神经网络快速评估有机分子在金属上的吸附能量

 DrugAI 2023-06-10 发布于韩国

天为大家介绍的是一篇使用图神经网路快速评估有机分子在金属上的吸附能量的论文。在异质催化中进行建模需要对吸附在表面上的分子的能量进行广泛评估。这通常通过密度泛函理论来实现,但对于大型有机分子来说,这需要巨大的计算时间,从而损害了该方法的可行性。在这里,作者设计了GAME-Net,一种用于快速评估吸附能的图神经网络。GAME-Net在一个平衡的化学多样性数据集上进行训练,其中包含了具有不同官能团的C分子,包括N、O、S和C芳香环。该模型在测试集上的平均绝对误差为0.18电子伏,并且比密度泛函理论快了6个数量级。应用于生物质和塑料中,预测的吸附能误差为0.016电子伏每个原子。该框架为催化材料的快速筛选提供了可用工具,特别适用于传统方法无法模拟的系统。

金属/有机表面对于包括电子学、防护涂层以及尤其是异质催化在内的几个领域至关重要。通过密度泛函理论(DFT),可以评估有机物种在金属表面上的吸附情况。这种方法已成功应用于包含一个到六个碳原子(C1–6)的分子。然而,当涉及以下情况时,DFT模拟将变得计算昂贵:(1)具有非刚性键的大分子;(2)非晶、部分无序和/或聚合结构;以及(3)具有多种构象导致不同键模式的分子。因此,需要更快的工具来估计例如塑料和生物质衍生出的分子的相互作用,但同时保持DFT的准确性。在该研究中,作者介绍了GAME-Net(基于图的金属吸附能神经网络),这是一个在广泛的DFT数据集上进行训练的GNN模型。该数据集包含了吸附在过渡金属表面上的闭壳层有机分子(3,315个条目和常见官能团),能够使用简单的分子表示估计吸附能,并具有与DFT相当的误差。GAME-Net可以用于预测从生物质、聚氨酯和塑料中衍生出的较大分子的吸附能,从而允许研究那些不适合于DFT的化学系统。

图1

模型与数据部分

密度函数理论:作者使用Vienna Ab-initio Simulation Package (VASP) 5.4.4进行了密度泛函理论(DFT)模拟。针对吸附在金属表面上的有机分子,构建了一个包含207个分子和14种金属的数据集(共3315个样本)。采用Perdew–Burke–Ernzerhof (PBE)泛函结合D2修正和重新参数化的金属值进行计算。核心电子使用波函数修正的伪势表示,价电子使用平面波展开,并设置了相应的截断能量。对于气相分子和吸附分子,分别进行了松弛计算和几何优化,以获得最稳定的结构。金属表面采用多层薄板模型进行建模,其中部分层固定而其他层进行松弛。为了获得最佳吸附位点,使用一组规则对分子进行了旋转和吸附位置的采样。计算中还考虑了超晶胞尺寸、布里渊区采样、真空区域大小以及偶极校正等参数。

自动生成DFT数据:作者描述了构建用于机器学习目的的数据集的自动化过程。首先,金属表面通过从块体开始构建。然后,使用Open Babel生成FG数据集中分子的几何文件,并应用MMFF94力场。这些几何文件被转换为VASP POSCAR文件,表示以20埃的立方单元进行建模的分子。对这些分子进行松弛计算,并将其放置在参考金属Rh表面的一定距离处。通过VASP对这些结构进行松弛,并将松弛后的几何结构应用于其他金属表面。对于BM数据集,分子是手动构建的,并通过VASP进行吸附和松弛计算,包括气相分子。最终获得的结构被上传到ioChem-BD进行存储。整个过程旨在构建包含各种吸附物-金属组合的数据集,以用于机器学习训练。

图表示算法:首先,将DFT计算得到的几何文件转化为图形表示。该算法使用Voronoi图剖分方法来定义原子之间的连接关系。连接性定义后,将原子表示为图的节点,将连接关系表示为边。使用独热编码将原子元素嵌入到节点中以适应机器学习。对于部分吸附系统,由于特定的几何结构,算法无法准确定义金属-吸附物之间的连接性,因此采用一系列过滤器来排除不准确的图形表示。这些过滤器包括检查图中是否存在金属原子、验证碳和氢原子的正确连接性、防止多个吸附物或解离吸附物的样本进入数据集,并删除重复的图形。该过程旨在构建适合模型训练的准确数据集。

GAME-Net架构:输入图由节点特征向量和坐标格式的图连接表示。节点特征向量经过一个稠密层进行转换,然后通过三个GraphSAGE卷积层捕捉邻居节点的信息。最后,通过GMT全局汇聚层将节点信息压缩为图形表示,返回DFT能量预测。节点级层使用ReLU作为激活函数。GAME-Net使用285,761个可训练参数进行训练,其中大部分参数集中在GMT汇聚层,其余参数在其他层中均匀分布。该架构通过使用紧凑的结构来实现,尽管可能存在一些冗余参数,但消除这些冗余可能更加复杂。

实验结果

图2

作者的目标是利用最简单的图形表示法,获得金属表面上闭壳有机分子的DFT基态能量。为此,本研究遵循图1所示的步骤。包括生成和筛选功能基团数据集,设计吸附和气相系统的图形表示,开发和训练GNN模型,并使用大分子数据集(塑料、聚氨酯和生物质等工业相关的较大分子)评估模型性能。

模型的性能如图2所示。作者使用五折嵌套交叉验证对GAME-Net进行了评估,使用了独特的训练集、验证集和测试集的组合。通过该验证方法,预测的DFT能量与实际DFT值之间的平均绝对误差(MAE)为0.18 eV。考虑到DFT在吸附中的共识误差约为0.20 eV,作者得出结论,该方法的误差与DFT本身相似。同时,作者观察到不同化学家族的误差分布,其中芳香化合物的误差较大,这可能是由于图形模型难以捕捉芳香环中的非局部电子效应。此外,基于交叉验证生成的不同模型之间的预测性能差异不大。在测试中,通过对接算法将分子放置在不同的吸附位点和金属表面上,使用未经优化的初始几何图形生成对应的图形表示,并将GAME-Net的能量预测与经过完全松弛的DFT能量进行比较。结果显示,图形表示可以区分不同的吸附位点,并提供多样的模型预测。对于两个吸附位点之间的能量差异,GNN的平均绝对偏差相对于DFT能量差异为0.34 eV。此外,通过考虑不同金属表面取向,对GNN的泛化性能进行了测试,结果显示MAE分别为0.34 eV和0.41 eV,主要受到芳香分子性能较差的影响。

通过在FG数据集中训练的GAME-Net模型,在大分子吸附上进行了合理的估计,包括来自生物质的分子、2,4-二氨基甲苯衍生的聚氨酯前体和聚合物分子(如聚乙烯、聚对苯二甲酸乙二酯和聚苯乙烯)。使用BM数据集进行测试时,GNN模型的整体MAE为0.48 eV,即每个原子0.016 eV。尽管存在挑战,如芳香环的存在和FG数据集中相对较少的训练数据,但聚氨酯前体和塑料家族的吸附预测效果较好。然而,对于生物质分子,包含环和C-O功能,其再现精度较低。

作者将GAME-Net与Open Catalyst Project的DimeNet++和PaiNN模型进行基准测试。基准测试表明,FG数据集具有稳健、全面和平衡的特点,使得所有基准模型都能提供令人满意的结果。与完整薄板相比,基于吸附集合的图形表示在DimeNet++和PaiNN模型中始终表现出更好的结果。相比于DimeNet++和PaiNN,GAME-Net在计算成本和时间上具有明显的优势。此外,GAME-Net的图形表示更直观,使得在界面键的解释中化学性质更加清晰,这对于实验科学家理解反应性质至关重要。

结论

作者构建了一个稳健、平衡且具有化学多样性的数据集,用于训练所提出的GNN模型,该模型能够预测闭壳层分子在金属表面上的吸附能。通过五折交叉验证,模型在FG数据集上的均方误差为0.18 eV。经过训练后,从GAME-Net获取能量估计所需的时间比从DFT获取能量的时间至少快了六个数量级。这项工作提供了一个基于图形的框架,能够从高质量的小分子数据集中学习复杂的化学模式。

参考资料

Pablo-García, S., Morandi, S., Vargas-Hernández, R.A. et al. Fast evaluation of the adsorption energy of organic molecules on metals via graph neural networks. Nat Comput Sci 3, 433–442 (2023). 

https:///10.1038/s43588-023-00437-y

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多