用于金属有机框架中通用迁移学习的多模态预训练 Transformer

天承办公室 2023-03-22 发布于江苏

展开全文

编辑 | 萝卜皮

金属有机框架 (MOF) 是一类结晶多孔材料，由于其具有不同拓扑结构的可调分子结构单元，具有广阔的化学空间。原则上可以合成无限数量的 MOF。机器学习方法可以通过从结构-性质关系中识别具有所需特性的最佳候选者来帮助探索这个广阔的化学空间。

在这里，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员介绍了 MOFTransformer，这是一种使用 100 万个假设的 MOF 进行预训练的多模态 Transformer 编码器。这种多模式模型利用集成的基于原子的图和能量网格嵌入来分别捕获 MOF 的局部和全局特征。

通过使用 5,000 到 20,000 个 MOF 的小数据集微调预训练模型，该模型在预测各种属性（包括气体吸附、扩散、电子属性，甚至文本挖掘数据）方面取得了最先进的结果。除了其通用的迁移学习能力外，MOFTransformer 还通过自注意力层内的注意力分数分析特征重要性，从而生成化学见解。因此，该模型可以作为其他 MOF 研究人员的平台，为他们的工作寻求开发新的机器学习模型。

该研究以「A multi-modal pre-training transformer for universal transfer learning in metal–organic frameworks」为题，于 2023 年 3 月 13 日发布在《Nature Machine Intelligence》。

由于具有大表面积、高化学/热稳定性和可调性等特性，结晶多孔 MOF 被用于各种能源和环境应用。鉴于 MOF 由数千个可调分子结构单元（即金属节点和有机接头）组成，原则上可以合成无限数量的 MOF。为了有效地探索这个巨大的 MOF 搜索空间，确定给定应用程序的结构-属性关系非常重要。

然后，人们可以专注于包含用户所需属性的特定结构的 MOF。为了获得此类信息，已使用高通量计算筛选方法对 MOF 结构的大型数据集进行模拟，并追溯识别结构-性质关系。然而，这可能很麻烦，更重要的是，需要对每个应用程序进行独立的计算筛选，需要大量的计算资源。

另一种发现结构-性质关系的方法是通过机器学习，它最近获得了很大的关注。特别是，MOF 结构的几何描述符（例如，空隙率和孔体积）已被用于准确预测各种气体吸附特性。还开发了一种机器学习模型，使用能量网格直方图作为描述符来预测气体吸收特性。对于扩散特性，已经开发了一个机器学习模型来使用几何、原子类型和化学特征描述符来预测 N2/O2 选择性和扩散率。对于电子特性，已经证明图形神经网络可以促进捕获潜在的化学特征，从而准确预测 MOF 的带隙值。

不幸的是，在所有这些先前的研究中，开发的机器学习模型不能很容易地从一个应用程序转移到另一个应用程序。因此，需要重新开始训练过程并为每个不同的应用程序从头开始开发新的机器学习模型。

为了解决这个问题，科学家可以利用迁移学习，它将知识从一个机器学习应用程序整合到另一个机器学习应用程序，因此原则上可以节省后续机器学习的计算时间。尽管迁移学习已在少数情况下应用于 MOF，但仅限于特定属性（例如，从气体吸收到气体扩散率或不同气体类型之间的迁移知识）。

为了实现广泛属性的可迁移性，它需要一个可以应用于所有可能属性的通用迁移学习模型。为实现这一点，机器学习模型和描述符应该捕捉两个不同的 MOF 特征：(1) 局部特征（例如，构建块的特定键和化学性质）和 (2) 全局特征（例如，几何和拓扑描述符）。

尽管局部描述符，例如晶体图卷积神经网络（CGCNN）、化学描述符、修正自相关函数（RAC）和构建块嵌入；全局特征，例如，ZEO++ 计算的几何特征和能量网格直方图，之前已经开发。然而，这些研究都没有有效地捕获局部和全局特征来实现通用迁移学习。

当谈到接受多个输入的多模态学习时，Transformer 架构（最初针对序列数据提出，例如语言模型）已经成为主导的建模网络。鉴于 Transformer 由并行处理数据序列的自注意力层组成，它有助于对具有大量数据的神经网络进行高效训练。

2019年，谷歌推出语言模型预训练 Transformer 编码器 BERT，在迁移学习方面表现出色。通过微调预训练的 BERT 模型，它在许多自然语言处理任务（例如问答和命名实体识别）中获得了最先进的性能结果。此外，对于计算机视觉，已经出现了各种视觉 Transformer 架构作为卷积神经网络的替代方案。

最近，预训练的 Transformer 的迁移学习策略已经扩展到多模态学习。这种经过预训练的多模态 Transformer 在图像字幕和视觉问答等视觉语言模型中取得了最先进的成果。由于其卓越的性能，Transformer 架构最近被用于预测 MOF 的各种特性。

在这里，韩国科学技术院的研究人员介绍了一种多模态 Transformer 架构「MOFTransformer」，它同时捕获了局部和全局 MOF 特征。该模型有助于从 CGCNN 捕获金属节点和有机连接体的化学性质，以及从能量网格捕获有关几何和拓扑特征（例如孔体积和拓扑结构）的信息。该团队的 MOFTransformer 使用 100 万个假设的 MOF (hMOF) 进行了预训练。