【原】GPT模型在化学领域可以做些什么？

DrugAI 2023-07-02 发布于韩国

展开全文

今天为大家介绍的是来自Xiangliang Zhang团队的一篇关于GPT能力讨论的论文。大型语言模型（LLMs）在自然语言处理任务中具有强大的能力，并迅速应用于科学、金融和软件工程等各种领域。然而，LLMs在推动化学领域的能力尚不清楚。作者建立了一个包含8个实际化学任务的全面基准，包括1）名称预测，2）属性预测，3）收率预测，4）反应预测，5）逆合成（从产物预测反应物），6）基于文本的分子设计，7）分子描述，和8）试剂选择。我们的分析基于广泛认可的数据集，包括BBBP、Tox21、PubChem、USPTO和ChEBI，有助于在实际化学背景下广泛探索LLMs的能力。作者评估了三个GPT模型（GPT-4、GPT-3.5和Davinci-003）在每个化学任务中以零样本和少样本上下文学习设置下的性能。作者的研究的主要结果是：1）在三个评估模型中，GPT-4的性能优于其他两个模型；2）在需要精确理解分子SMILES表示的任务（如反应预测和逆合成）中，GPT模型表现出较弱的竞争性能；3）GPT模型在与文本相关的解释任务（如分子描述）中展示出强大的能力；4）在可转化为分类或排序任务的化学问题（如属性预测和收率预测）中，GPT模型展现出与经典机器学习模型相当或更好的性能。

大型语言模型（LLMs）最近展示了在各种任务中令人印象深刻的推理能力。这些任务不仅局限于自然语言处理，还涉及科学领域中各种与语言相关的应用。关于LLMs在科学领域能力的研究大部分集中在回答医学和科学问题等任务上。然而，在化学领域中实际任务中应用LLMs的探索仍然不足。为了填补这一知识空白，作者开发了一个全面的基准测试，对GPT模型在各种实际化学任务中的能力进行初步调查。

我们的研究重点是八个实际化学任务，涵盖了化学领域的广泛领域。这些任务包括：1）名称预测，2）性质预测，3）产率预测，4）反应预测，5）逆合成（从产物预测反应物），6）基于文本的分子设计，7）分子标题生成，和8）试剂选择。作者的分析基于广泛可用的数据集，包括BBBP，Tox21，PubChem，USPTO，ChEBI等等。针对每个化学任务，作者评估了三个GPT模型（GPT-4，GPT-3.5和Davinci-003）。

文章研究的主要发现如下：

· 在评估的三个模型中，GPT-4在8个任务中表现出色。三个模型在8个任务中的排名可在表1中找到；

· GPT模型在需要对分子SMILES表示进行精确理解的任务（如名称预测、反应预测和逆合成）中表现较差；

· GPT模型在与文本相关的解释任务（如分子标题生成）中表现出强大的能力；

· 对于可以转化为分类任务或排序任务的化学问题（如性质预测和产率预测），GPT模型可以与使用经典机器学习（ML）模型作为分类器的基线模型相竞争，甚至更好。

表格 1

实验设置

图 1

评估过程的工作流程如图1所示。作者与化学家合作，确定了八个化学任务。然后，生成、评估并选择适当的提示信息发送给GPT模型。获取的答案会通过定量和定性的方式进行评估。

化学名预测

表 2

对于一个分子来说，存在不同类型的化学名称，比如SMILES、IUPAC名称和分子式。为了研究GPT模型是否具有基本的化学名称理解能力，作者构建了4个化学名称预测任务，包括SMILES到IUPAC名称的转换（smiles2iupac）、IUPAC名称到SMILES的转换（iupac2smiles）、SMILES到分子式的转换（smiles2formula）和分子式到SMILES的转换（formula2smiles）。结果在表2中报告（只报告了代表性方法及其在验证集上通过网格搜索找到的最佳提示设置）。在所有四个名称预测任务中，最佳方法的准确率非常低（iupac2smiles任务为0.014，smiles2formula任务为0.086），甚至为0（smiles2iupac和formula2smiles任务）。这表明GPT模型缺乏基本的化学名称理解能力。Davinci-003的准确率明显低于其他模型。

化学性质预测

表 3

表 4

分子性质预测是计算化学中的一项基础任务，它在药物发现、材料科学和化学的其他领域具有潜在应用。该任务涉及使用机器学习技术，基于分子的分子结构来预测给定分子的化学和物理性质。文章旨在进一步探索LLMs在分子性质预测中的潜力，并评估它们在一组基准数据集上的性能，如BBBP、HIV、BACE、Tox21和ClinTox。这些数据集由大量的SMILES表示的分子组成，配对具有二进制标签，突出显示正在评估的特定性质。结果以F1为单位报告在表3中，准确度在表4中。可以观察到，就F1而言，GPT模型在五个数据集中的四个上表现优于基准模型。在所考察的GPT模型范围内，GPT-4在预测分子性质方面超过了Davinci-003和GPT-3.5。在我们的调查中，我们发现扩展上下文学习（ICL）实例可以显著提升模型性能。这凸显了ICL数据的范围与我们模型预测精度之间的直接关系。与此同时，自拍总金额的研究提供了经验证据，表明在三个不同的数据集（BBBP、BACE、Tox21）上，骨架抽样优于随机抽样的性能。这可能的解释是骨架抽样分子与查询分子之间的结构相似性，可能使GPT模型更趋向于更准确的决策。

产率预测

表 5

产率预测（Yield prediction）是化学中的一个关键任务，特别是在合成化学领域中，涉及设计和合成新化合物，用于制药、材料和催化剂等各种应用。任务旨在估计化学反应的效率和有效性，主要通过计算所期望产物与反应物之间形成的百分比来量化。作者使用分类准确率作为评估指标，UAGNN作为基准模型。UAGNN在收率预测方面报告了最先进的性能。结果呈现在表格5中。在此预测任务中，GPT模型的表现低于基准模型UAGNN。然而，值得注意的是，UAGNN模型是在包含数千个示例的完整训练数据集上进行训练的。考虑到所研究的GPT模型的范围，GPT-4成为比较好的模型，超过了Davinci-003和GPT-3.5在预测反应收率方面的表现。

反应预测

表 6

反应预测是化学领域的一项核心任务，对于药物发现、材料科学和新型合成途径的开发具有重要意义。在这个任务中，给定一组反应物，目标是预测在化学反应过程中最可能形成的产物。在这个任务中，作者使用广泛采用的USPTO-MIT数据集来评估GPT模型的性能。使用Top-1准确率作为评估指标，并选择Chemformer 作为基准模型，因为它在反应预测的机器学习解决方案中具有较高的性能。结果见表6。可以观察到，与基准模型相比，GPT模型的性能明显较差，特别是在零样本提示下（Top-1准确率仅为0.004，生成的无效SMILES占17.4%）。GPT模型性能不佳的原因可以归因于对代表反应物和产物的SMILES字符串以及将反应物转化为产物的反应过程的深入理解不足。

试剂选择

表 7

试剂选择，也称为试剂推荐，涉及识别和提议适用于特定化学反应或过程的最合适试剂。与其他预测和生成任务相比，这些选择任务可能更适合于大型语言模型（LLMs），并具有广泛的影响。试剂推荐可以通过确定给定反应的最佳试剂和条件，显着提升反应设计，从而增加学术和工业领域的效率和效果。利用庞大的化学知识库，GPT模型可能能够生成建议，从而产生可能产生更好结果的化学反应。作者从Suzuki高通量实验（HTE）数据集中提取了四个反应组分选择任务。试剂选择任务可分为三类：反应物选择、配体选择和溶剂选择。反应物和溶剂选择采用Top-1准确率作为评估指标，而配体选择采用Top-50%作为评估指标。这个任务在化学领域是新兴的，因此尚无已建立的基准模型。结果在表7中呈现。从表中可以看出，GPT-4和GPT-3.5在试剂选择任务中表现相对较好。这表明GPT模型在试剂选择领域具有很大的潜力。

逆合成

表 8

逆合成规划是有机合成化学中的一项关键任务，其涉及通过将目标分子逐步转化为较简单的前体分子来确定高效的合成途径。与反应预测相比，逆合成规划涉及从目标分子进行逆向推导，以确定其合成所需的易得反应物。在本研究中，作者使用了USPTO-50k数据集[42]，其中包含50,037个化学反应。结果见表格8。由于GPT模型对代表反应物和生成物的SMILES字符串缺乏深入理解，其性能也不及基准模型。

基于文本的分子设计

表 9

基于文本的分子设计是计算化学和药物研发中的一项新颖任务。它涉及根据所需的分子描述生成新的分子。在实验中，作者使用包含33,010个分子-描述对的ChEBI-20数据集。该数据集按照80/10/10%的比例划分为训练集、验证集和测试集。为了进行比较，作者将MolT5-Large作为基准模型。MolT5-Large是对分子和文本之间的转换进行研究的初始工作，包括基于文本的分子设计和分子描述等任务。其次，作者还使用FCD（Fréchet ChemNet距离）评估，它允许基于用于预测分子活性的潜在信息来比较分子。由于生成的分子是以SMILES字符串格式表示的，还使用自然语言处理指标，包括BLEU、Exact Match 和Levenshtein距离来衡量地面真实分子与生成的分子SMILES之间的相似性。最后，为了评估生成的分子是否有效，使用RDKIT 来检查生成的分子的有效性，并报告有效分子的百分比。结果见表9。可以看到，在某些指标（如BLEU和Levenshtein）上，最佳ICL提示的GPT模型（GPT-4和Davinci-003）能够达到具有竞争力的性能甚至优于基准模型。尽管在精确匹配和Morgan FTS指标方面，GPT模型明显不及基准模型，但值得注意的是，作者只使用了最多10个示例，远少于基准模型所使用的训练集（包含26,407个训练示例）。这些结果表明了GPT模型在少样本文本分子设计方面的强大能力。

分子概括

表 10

分子概括生成是计算化学中的一个重要任务，它在药物发现、材料科学和化学合成等领域提供了宝贵的见解和应用。该任务的目标是在给定一个分子作为输入的情况下，生成一个准确描述该分子关键特征、性质和功能团的文本描述。作者同样使用了ChEBI-20数据集及其训练集作为ICL候选，使用传统的标题生成指标，包括BLEU、ROUGE和METEOR进行评估。结果报告在表10中。可以观察到，最佳的ICL提示GPT模型（GPT-4和Davinci-003）在一些指标（BLEU-2和BLEU-4）上可以实现竞争性的性能甚至超过基线。这表明了GPT模型在分子标题生成任务中的鼓舞人心的能力。

结论

LLM（大型语言模型）的一个显著限制是它们对SMILES字符串中分子表示的理解不足，这往往导致不准确或不一致的结果。SMILES是一种广泛使用的用于表示化学结构的文本表示方法。该字符串表示由两个碳原子（C）通过单键连接，并且氧原子（O）连接到第二个碳原子的分子。SMILES字符串可以作为LLM的输入和输出，与其他自然语言文本一起使用。然而，有几个问题使得LLM难以准确理解和解释SMILES字符串：1）氢原子在SMILES字符串中没有明确表示，因为它们可以根据标准的键合规则进行推断。LLM经常难以推断这些隐含的氢原子，甚至在简单的任务（如计算分子中原子数）上可能失败。2）同一个分子可以有多个有效的SMILES表示，如果没有正确处理或标准化，就可能导致歧义。因此，LLM可能无法一致地识别和比较由不同SMILES字符串表示的分子结构。3）LLM没有对SMILES字符串的任何内在理解，将其视为字符或子词的序列。在处理较长的SMILES字符串时，LLM依赖于字节对编码的分词技术，这可能会将字符串分解为不代表SMILES字符串所表示的分子结构和性质的较小片段或子词。由于化学信息学中的许多任务依赖于SMILES字符串对分子的准确表示，GPT模型在将结构转换为SMILES字符串（反之亦然）方面的非竞争性性能影响到反向合成、反应和命名预测等下游任务。因此，需要具有处理分子结构及其特定属性或与现有工具耦合的增强能力的模型。

尽管在文本化学设计和分子描述生成任务中，与基准模型相比，GPT模型在某些度量指标（如BLEU、Levenshtein、ROUGE、FCD等）上表现出竞争性的性能，但可以观察到GPT模型在文本化学设计任务中的精确匹配性能不及基准模型，并且GPT模型生成的一些描述违反了化学事实。这种度量指标和实际场景之间的差异主要是因为，与许多自然语言处理任务不同，化学相关的任务需要对SMILES进行精确匹配，并在描述中使用准确的术语。这些发现突出了当前评估指标的局限性，并强调了发展特定于化学领域的评估指标的需求。

作者在各种任务中进行的评估实验揭示了GPT模型在化学领域中表现出的两种主要类型的错觉。第一种类型发生在输入以SMILES格式给出的情况下（例如，名称预测）；GPT模型偶尔会在正确解释这些SMILES时遇到困难。第二种类型的错觉出现在预期输出应以SMILES形式呈现的情况下（例如，反应预测和逆合成）。在这种情况下，GPT模型可能会生成在化学上不合理的分子，这表明它们对于什么构成有效的SMILES存在理解上的差距。错觉问题是GPT模型面临的一个关键挑战，尤其是在需要对SMILES进行精确匹配和严格遵守化学事实的化学领域。

总体而言，通过一系列详尽的实验和分析，文章概述了GPT模型在化学领域应用的几个有前景的途径。虽然相对于基准模型，GPT模型在大多数任务上表现较差，但需要注意的是，GPT模型仅利用少量示例来解决化学问题，而基准模型则是在大规模、特定任务的数据集上进行训练，并且受限于某些任务。这一观察结果为我们提供了有关GPT模型在化学领域普遍智能的潜力的宝贵见解。采用先进的提示技术，如连续思考（Chain-of-thought，CoT）和分解提示（Decomposed Prompting），可能有助于提高GPT模型进行复杂推理的能力。另一方面，GPT模型在化学任务中显示出相当多的错觉，这表明当前的GPT模型可能还不具备有效解决实际化学问题所需的能力。然而，随着GPT模型的不断发展和对避免错觉的进一步研究，作者对GPT模型能够显著增强其在化学领域的问题解决能力持乐观态度。

参考资料

Guo, Taicheng, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest and Xiangliang Zhang. “What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks.” (2023).

https:///abs/2305.18365