【原】自我一致性可以提升语言模型中推理的质量

DrugAI 2023-08-14 发布于韩国

展开全文

今天为大家介绍的是来自google团队的一篇提升语言模型推理能力的论文。连贯思维提示结合预训练的大型语言模型在复杂推理任务上取得了令人鼓舞的成果。在文中，作者提出了一种新的解码策略——自我一致性，用来替代连贯思维提示中使用的朴素贪婪解码。该策略首先对多样化的推理路径进行抽样，而不仅仅采用贪婪路径，然后通过边际化采样的推理路径来选择最一致的答案。自我一致性利用了这样一个直觉：复杂的推理问题通常会有多种不同的思路，最终导致唯一正确的答案。

虽然语言模型在各种自然语言处理任务中取得了显著的成功，但其展示推理的能力常常被视为一种限制，仅仅通过增加模型规模无法克服这个限制。为了解决这个缺点，研究人员提出了连贯思维提示（chain-of-thought prompting）的概念，其中语言模型被提示生成一系列短句，模拟人在解决任务时可能采用的推理过程。观察发现，连贯思维提示显著提高了语言模型在各种多步推理任务上的性能。在文中，作者引入了一种名为自我一致性（self-consistency）的新型解码策略，用以取代连贯思维提示中使用的贪婪解码策略，从而进一步显著提高语言模型的推理性能。自我一致性利用了一个直觉，即复杂的推理任务通常允许多种推理路径达到正确答案。问题所需要的深思熟虑和分析越多，能够恢复答案的推理路径的多样性就越大。图1展示了自我一致性方法的示例。首先使用连贯思维提示来提示语言模型，然后不再贪婪地解码最佳推理路径，而是提出了一种“抽样和边际化”解码过程：首先从语言模型的解码器中抽样，生成一组多样化的推理路径；每个推理路径可能导致不同的最终答案，因此通过边际化采样的推理路径来确定最佳答案，找出最终答案集中最一致的答案。这种方法类似于人类的经验，即如果多种不同的思维方式导致相同的答案，那么对于最终答案的正确性就更有信心。与其他解码方法相比，自我一致性避免了贪婪解码中的重复性和局部最优性问题，同时减轻了单个采样生成的随机性。

图 1

实验部分

表 1

作者进行了一系列实验，将提出的自一致性方法与现有方法在多个推理基准上进行了比较。可以发现，对于每个考虑的语言模型，无论模型规模如何，自一致性都能稳定地提高推理准确性。

在表格1中，作者展示了在一组推理任务上使用不同答案聚合策略的测试准确率。除了多数投票外，在聚合答案时，还可以根据token输出的概率对每个答案结果进行加权。在表格1中，作者展示了采用“未加权求和”（即直接进行多数投票）与使用“归一化加权求和”进行聚合的准确率非常相似。此外，在聚合答案“归一化”加权求和相对于其非归一化的对应方法具有更高的准确率。

表2

表 3

算术推理的结果显示在表格2中。自一致性方法显著提高了四个语言模型在算术推理上的表现，相较于基于思路链的提示。当语言模型的规模增加时，这种提升变得更加显著。例如，相较于UL2-20B模型，在LaMDA-137B和GPT-3上看到了3%-6%的绝对准确率提升，而在更大的模型上（如GPT-3和PaLM-540B），即使在大多数任务上已经达到了高准确率，自一致性仍然为AQuA和GSM8K等任务带来了12%-18%的绝对准确率提升，在SVAMP和ASDiv上提升了7%-11%。借助自一致性，模型在几乎所有任务上取得了新的最先进的结果。尽管自一致性是无监督且与任务无关的方法，但与需要特定任务训练或使用数千个示例进行微调的现有方法相比（例如在GSM8K上），这些结果仍然表现出色。

常识和符号推理的结果显示在表格3中。类似地，自一致性方法在所有四个语言模型上都取得了巨大的提升，并在六个任务中的五个任务中达到了最先进的结果。对于符号推理，作者在超出分布（OOD）的设置下进行测试，其中输入提示包含了2个字母或2个翻转的示例，但测试的是4个字母和4个翻转的示例（这个设置更具挑战性，因为PaLM-540B或GPT-3已经可以在分布内实现完美准确率）。在这个具有挑战性的OOD设置中，自一致性相对于CoT提示仍然具有相当大的提升，尤其是在具有足够模型规模的情况下。

结论

作者引入了一种简单而有效的方法，称为自一致性，观察到它在多种算术和常识推理任务中显著提高了准确性，适用于规模不同的四个大型语言模型。除了准确率的提升外，自一致性在使用语言模型进行推理任务时收集推理依据非常有用，并且可以提供不确定性估计和改进的语言模型输出校准。

参考资料

Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., ... & Zhou, D. (2022). Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.