【原】多模态分子结构-文本模型用于基于文本的检索和编辑

DrugAI 2023-03-14 发布于韩国

展开全文

今天为大家介绍的是来自Jian Tang, Chaowei Xiao和Anima Anandkumar的一篇分子查询和分子编辑的论文。这篇文章提出了一个 “多模态分子结构-文本模型”的人工智能模型，用于基于文本的检索和编辑。该模型结合了分子结构信息和文本知识，并通过对比学习策略来联合学习分子的化学结构和文本描述。为了训练这个模型，作者们构建了迄今为止最大的多模态数据集PubChemSTM，其中包含超过280,000个化学结构-文本对。在实验部分，作者展示了该模型具有零样本泛化到新的药物设计目标和预测新的复杂生物活性的能力。

目前主流机器学习方法是根据分子的文本表示(the simplified molecular-input line-entry system or SMILES)，分子的图表示或分子的几何形态对分子的化学结构进行建模。此类方法采用了大量的监督信息去训练模型。然而，监督信息需要提前标注，使得现在的方法很难扩展到未曾标记过的数据上或未曾训练过的任务上。为了克服标签数据获取难的问题，研究人员提出了一些无监督分子学习方法，并且证明了其在诸多下游任务上微调后的有效性。尽管无监督方法相比于有监督方法有一定优势，在没有标注数据或者没有进行微调的情况下，泛化到未见过的类别和任务仍然是一个难题。除此之外，目前的方法主要集中于分子的化学结构，对于分子的多模态信息的作用还知之甚少。

与主流的方法不同，本文提出了一种多模态预训练方法。通过构建文本-分子结构数据对，让模型联合学习分子的化学结构和文本描述。预训练模型如上图(a)所示，利用对比学习来将相同分子的结构-文本对齐，并在联合潜空间中同时对不同分子的结构-文本对进行对比。具体来说，该策略通过将相同分子的结构-文本对映射到相近的向量空间中，同时将不同分子的结构-文本对映射到远离的向量空间中，从而使得模型能够更好地区分不同分子之间的差异。随后，模型会在几个下游任务上微调，如上图(b-d)所示。下游任务具体为：基于零样本的分子结构-文本检索(b)；基于零样本和文本的分子设计(c)；分子性质预测(d)。为了训练模型，作者构建了一个名字叫PubChemSTM的数据集。此数据集是目前最大的分子多模态数据集。在此数据集中，每一条分子都有其对应文本描述，用来表明的分子的物化性质或者生物学活性。

结果

作者通过引入了两个基于零样本的分子任务，总结了本文模型的两大特性,即开放词汇和自然语言的组合性。“开放词汇”指的是该模型不仅限于预定义的分子相关文本描述，而且可以支持使用自然语言描述广泛的生物化学概念，这在药物发现的诸多任务中十分重要；“自然语言的组合性”指的是该模型能够通过自然语言组合分子结构信息和文本知识，简化复杂的概念，从而使模型能够胜任如多目标分子优化类任务。除此之外，对于传统的分子性质预测任务，本文模型也能达到极好的结果。

任务1 基于零样本的分子结构-文本检索

此任务旨在测试模型对于新的分子结构和文本描述之间的关系是否具有泛化能力。在这个任务中，模型需要从给定的分子结构或文本描述中预测出另一种形式的信息。具体来说，在 MoleculeSTM 中，这个任务包括两个设置：(1) 给定化学结构，检索文本描述；(2) 给定文本描述，检索化学结构。这个任务的评估指标是检索准确率。通过对比预训练和联合潜空间表示，MoleculeSTM 在这个任务上取得了最先进的泛化能力。具体结果如上图所示。值得注意的是，作者将检索任务和药物重定位这种实际应用任务联系起来（上图b部分），拓展了此模型更多的应用场景，而不仅仅是只关注检索任务。

任务2 基于零样本和文本的分子设计

此任务旨在测试模型是否能够根据给定的文本描述，对分子结构进行编辑或生成。在这个任务中，模型需要利用预训练的分子生成模型和 MoleculeSTM 中的大型语言模型，在不需要针对新分子进行额外训练或微调的情况下，实现零样本文本驱动的分子编辑。作者用四个子任务来验证模型的能力：(1) 单目标分子设计：优化分子的单一属性。(2) 多目标分子设计：优化分子的多个属性。(3) 基于亲和力的分子设计：设计出能跟目标蛋白质有高亲和力的分子。(4) 分子结构设计：设计在结构上类似于文本描述的分子。

与任务1不同，此任务为生成任务，所以先要训练一个分子特征解码器，将分子特征与具体的分子对应起来，之后对上述四个任务进行测试。数值结果如上图所示。同时，作者通过展示一系列图例（下图）来说明模型能够生成与目标任务相关的分子子结构，其优越的表现证明了模型在基于自然语言的分子设计上的泛化能力。

任务3 分子性质预测

此任务旨在预测分子的性质，包括药理学、毒性和不良反应等，主要在BBBP、Tox21、ToxCast、ClinTox和SIDER等数据集上做了对比实验。相比于上述两种任务，此任务更像是进一步探讨文本-分子结构预训练带给模型的分子特征编码能力。相比于baseline的方法，MoleculeSTM的效果在大部分的数据集上更加优越。

结论

本文介绍了一种基于多模态预训练的分子理解模型MoleculeSTM（同时构建了文本-分子结构数据集PubChemSTM），该模型结合了分子结构信息和文本知识。通过展现模型在两种零样本任务上的效果，论证了文本-分子结构预训练机制可以带给强大的泛化能力。除此之外，在传统分子性质预测任务上也达到了非常高的效果。

展望

作者在文末也提出了未来工作的几种构想：（1）现阶段的任务还主要针对化学信息类任务，倘若能够扩展到生物信息数据上，我们就能得到更加丰富的文本信息。这样可能帮助模型拓展到基于结构的药物设计问题。（2）将3D结构信息对于分子是十分重要的，如果能纳入到模型中会对模型有很大的帮助。（3）本文构建的分子结构和文本共同空间可以进一步应用到其他AI药物发现任务，比如小样本性质预测等。

参考资料

Multi-modal Molecule Structure-text Model for Text-based Editing and Retrieval：https://chao1224./MoleculeSTM

代码

https://github.com/chao1224/MoleculeSTM