大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

黄爸爸好 2024-03-27 发布于上海

展开全文

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 专知

因果推断在提高自然语言处理（NLP）模型的预测准确性、公平性、鲁棒性和可解释性方面显示出潜力，它通过捕捉变量间的因果关系来实现这一点。生成式大型语言模型（LLMs）的出现显著影响了各种NLP领域，特别是通过它们先进的推理能力。本综述集中于从因果视角评估和改进LLMs，在以下几个方面：理解和提升LLMs的推理能力，解决LLMs中的公平性和安全性问题，为LLMs提供解释，以及处理多模态问题。同时，LLMs的强大推理能力反过来也可以通过帮助发现因果关系和估计因果效应来促进因果推断领域的发展。本文探讨了因果推断框架与LLMs之间的相互作用，从两个角度强调它们共同的潜力，以进一步发展更高级和更公平的人工智能系统。

论文链接：https:///abs/2403.09606

近年来，大型语言模型（LLMs）在一系列关键任务中展现出了非凡的多功能性。LLM擅长的任务包括文案创作、用其独特的风格和声音增强原始句子、响应知识库查询、生成代码、解决数学问题以及根据用户需求执行分类或生成任务。此外，最近还扩展到了多模态变体，如大型视觉语言模型（LVLMs）或大型多模态语言模型，这些变体扩大了它们的输入/输出能力，以涵盖各种模态。这种演变显著提高了这些模型的潜力和应用范围。

在本综述中，我们主要关注基于变换器（Transformers）的大型语言模型（LLMs）。LLMs的能力根本上源于它们的推理能力，这决定了它们在理解、处理和提供各种查询的解决方案方面的熟练程度，以及它们适应对社会有影响的领域的能力。因此，大量研究工作致力于测量和增强这些能力，范围从评估LLMs的推理能力到审查它们的决策过程，并解决概念在不同模态间对齐以及减少幻觉等挑战。此外，由于LLMs在数十亿参数的基础上训练了大量人类知识，它们有时面临在不同场景下适当优先级或淡化所学的挑战。这可能导致领域偏移，即模型在与训练集不同的数据上的性能下降，以及长尾偏差，即不常见的示例处理不够有效。

在许多情况下，语言任务不仅需要基于数据中的模式预测或生成文本，还需要理解驱动这些模式的潜在因果机制。因果推断在提高自然语言处理（NLP）模型的预测准确性、公平性、鲁棒性和可解释性方面显示出了巨大的潜力。随着生成式LLMs的出现，各个NLP领域发生了重大变革，吸引了越来越多的研究兴趣，应用因果推断来解决与LLM相关的挑战并增强其功能。这种转变也激励了本综述概述因果方法及其在LLMs中的实施，强调它们在丰富我们对语言模型的理解和应用中的作用。

同时，本综述还旨在探索LLMs如何帮助因果推断框架。因果推断正式定义为一个智力学科，它考虑了允许研究者基于数据得出因果结论的假设、研究设计和估计策略。因果推断有三个主要来源：潜在结果、图表和结构方程，每个来源都有独特的用途。潜在结果框架侧重于通过统计推断和治疗比较来估计因果效应。图形模型则擅长绘制因果路径和可视化关系，节点代表变量，边表示方向性影响。在本综述中，我们主要讨论Pearl对因果图的公式化，它用有向无环图（DAGs）形式化了表示随机变量间条件独立关系的因果图形模型。

我们总结了LLMs如何在其两个重要组成部分中帮助因果推断，即因果关系发现和治疗效果估计。确定变量间的因果关系是因果推断框架的一个基本步骤，因为估计变量A对变量B的因果效应需要对与A和B相关的其他变量的因果关系进行因果假设。传统上，研究人员依靠具有主题知识的专家为这些因果关系奠定基础。因果发现方法为从观察数据中发现因果图提供了一种替代方法。LLMs已经展示了根据预训练知识或给定文本确定这种因果关系的能力。它们也可以与因果发现方法结合，进一步提高结果的可靠性。估计治疗效果是因果推断的核心，但在许多情况下由于缺乏反事实数据而受阻。利用LLMs强大的反事实推理能力，研究人员开发了各种方法来生成高质量的反事实，以实现治疗效果估计。

本综述的结构如图1所示。我们从第2节开始介绍大型语言模型的最新进展。然后我们在第3节提供了用于改进LLMs的因果推断方法概述。在论文的前半部分，我们讨论了这些方法在LLM社区的各种问题中的应用：第4.1节概述了因果方法用于衡量和改进LLM的推理能力，第4.2节和第4.3节关注公平性和安全性问题，而第4.4节介绍了因果推断方法如何处理LLM的可解释性。我们还在第4.5节讨论了构建和开发多模态大型模型的扩展。最后，我们在第4.6节列出了从因果视角对LLMs进行评估和基准测试的现有工作。在综述的后半部分，我们转向LLMs如何扩展因果推断的边界。第5.1节解释了因果推断的当前假设、限制和瓶颈。第5.3节和第5.2节陈述了改进治疗效果估计和因果发现的当前工作。我们在第6节突出了几个未来方向。

LLMs可以显著受益于因果推断，因为它增强了它们理解和推理数据内因果关系的能力。在本节中，我们回顾LLMs如何从以下几个角度受益于因果视角，包括理解和提升LLMs的推理能力（第4.1节）、解决LLMs中的公平性问题（第4.2节）和安全性问题（第4.3节）、用解释补充LLMs（第4.4节）以及处理多模态问题（第4.5节）。然后我们在第4.6节中从这些角度组织基准数据集。

大型语言模型用于因果推断

因果推断作为解决LLMs挑战的有力工具，重度依赖于世界知识。如前所述，因果推断有三个主要来源：潜在结果框架、基于图的因果方法和结构方程社区。潜在结果框架在很大程度上依赖于几个假设，以促进对群体/个体之间治疗效果的比较。应用潜在结果框架的最具挑战性的方面之一在于确保这些假设在现实中成立。在本节中，我们首先审查这些假设，随后说明现有文献是如何放宽这些假设的。基于图的因果方法和结构方程模型也需要对潜在的因果图有一定水平的理解。例如，有向无环图（DAGs）作为一个基本假设，许多结构方程模型假设一定程度的线性或者输入分布遵循特定的概率分布。在我们的回顾中，我们还探索了现有方法如何验证输入数据中的分布，并在LLMs的帮助下扩展当前方法以容纳更复杂的分布。

结论

在其核心，一个大型语言模型（LLM）就像一个庞大的知识库。一个持续的挑战是如何有效地提取和使用这些知识。改进LLM的关键在于增强它们理解因果关系的能力——本质上，理解事物之间是如何连接的。因果推理对于让LLM更智能至关重要。从因果推断的角度来看，我们发现了一个宝贵的框架，有助于提高LLM的效果。同时，作为人类知识的保管者，LLM甚至可以通过提供超越现有限制的广泛专业知识，帮助克服因果推断中的局限性，重新塑造我们在这一重要领域的理解，并为该领域带来新的活力。

在这篇综述中，我们提供了一个彻底的考察，探索了大型语言模型（LLM）与因果推断交汇处的当前景观。我们深入探讨了因果推断如何对LLM做出贡献，增强了推理、公平性、安全性以及LLM的可解释性等方面。此外，我们探索了LLM反过来如何拓宽因果推断的视野。跨越这些类别，我们的综述提供了深入的讨论、比较和对审视方法的简洁总结，提供了一个全面的研究现状概览。可用的基准数据集和这些方法的开源代码也被列出。

对因果推断和大型语言模型当前进展的考察服务于双重目的。首先，它增强了我们对这两个领域如何相互受益的理解。其次，它催生了新的问题，推动我们更接近于实现人工通用智能。此外，这一探索有潜力扩展到多个领域，并在现实世界场景中找到应用，展示了因果推断与LLM之间协同作用的深远影响。

技术交流群邀请函

△长按添加小助手