分享

因果推理与大语言模型:开辟因果关系的新前沿

 heaven张君峰 2023-05-09 发布于陕西

导语


大语言模型(LLMs)的因果推理能力一直是一个争议性的问题,要在医学、科学、法律和政策等对社会产生重大影响的领域使用大语言模型,研究其因果推理能力具有重要意义。近日发表于 arXiv 的最新论文“因果推理与大型语言模型:开辟因果关系的新前沿”,深入探讨大语言模型及其因果推理能力。

在这项研究中,基于大语言模型的方法在因果发现、反事实推理和实际因果关系等多个基准测试任务中表现出最高的准确性。通过捕捉关于因果机制的常识和领域知识,并支持自然语言与形式方法之间的转换,大语言模型为推进因果推理开辟了新前沿。

关键词:大语言模型,因果推理
图片

梁金 | 编译


论文题目:Causal Reasoning and Large Language Models: Opening a New Frontier for Causality
论文链接:https:///abs/2305.00050
作者:E Kıcıman, R Ness, A Sharma, C Tan [Microsoft Research & University of Chicago]

诺贝尔物理学奖得主尤金·维格纳在1960年曾撰文“数学在自然科学中不合理的有效性”(The Unreasonable Effectiveness of Mathematics in the Natural Sciences),表达他惊奇于数学对物理世界的深刻描述能力,数学常常指引物理理论的发展,甚至指引实验预测。这项新研究的论文作者之一 Amit Sharma 则发表博客文章“大语言模型对于因果推理不合理的有效性”,探讨大语言模型进行因果推理的惊人准确性。

文章题目:On the unreasonable effectiveness of LLMs for causal inference
文章链接:https:///thread/1653457971844874240.html

在这项研究中,基于大语言模型的方法在多个因果基准测试任务上表现出最高的准确性。基于GPT-3.5/4的算法在多项因果推理任务中胜过现有算法,包括成对因果发现任务(97%,提高13个百分点),反事实推理任务(92%,提高20个百分点),和实际因果关系(在确定事件的必要和充分原因方面具有86%的准确性)

图灵奖得主、计算机科学家 Judea Pearl 在推特转发论文并评论道,大语言模型应用于因果推理任务具有巨大的潜力,可能为“因果之梯”添加新的层级。

图片

图1. Judea Pearl 的因果之梯包括三个层级:关联(association)、干预(intervention)和反事实(counterfactual),分别对应逐级复杂的因果问题。


这到底是如何实现的呢?关键之处在于,大语言模型引入一种基于文本和元数据的新推理方式来实现这一目标,称之为基于知识的因果推理(knowledge-based causal reasoning),这与现有的基于数据的方法有所不同。具体而言,大语言模型拥有迄今为止被认为只有人类才具有的能力,如使用知识生成因果图,或从自然语言中识别背景因果关系。

大语言模型可以作为人类领域知识的代理,这对通常依赖于人类输入的因果任务来说是一个巨大的胜利。通过捕捉关于因果机制的常识和领域知识,并支持自然语言与形式方法之间的转换,大语言模型为推进因果关系的研究、实践和采用开辟了新前沿。




1. 大语言模型与因果发现




  • 成对因果发现

在成对因果发现任务中,GPT3.5/4 之类的大语言模型在涵盖物理学、工程学、医学和土壤科学的图宾根基准测试中,以超过 90% 的的准确率正确预测成对变量的因果方向(A是否导致B?),此前最高的准确率是83%。提示语使用变量名,并询问更可能的因果方向。

图片
图2. 成对因果关系测试任务试图确定,变量A是否导致变量B,或者反之。

在关于神经性疼痛的专门医学数据集上,大语言模型也获得了类似的高准确率。在这种情况下,因果关系并不明显,然而 GPT-4 以96%的准确率检测到正确的因果方向。提示语的选择对结果有很大影响。

图片
图3. 神经性疼痛诊断基准中的成对因果关系。

  • 发现完整因果图

对于更困难的任务,发现完整的因果图,此前在医学数据集上的工作预测大语言模型无效,然而事实并非如此。通过简单的提示调整,测试分数迅速从0.1上升至0.7。在一个北极科学数据集上,GPT-4 超越了最近的深度学习方法。当然,大语言模型也会犯一些愚蠢的错误(例如回答鲍鱼的长度决定了其年龄),所以在关键应用上仍然难以信任。但结果令人惊讶的地方在于,在涵盖广泛人类知识的数据集上,这类错误是如此之少。

这对因果推理具有重要意义。构建因果图可能是因果分析中最具挑战性的部分。这些结果表明,我们可以不再依赖人类提供完整的因果图,而可以使用大语言模型来生成候选因果图或帮助评估。

图片

图4. 大语言模型检测因果方向的推理过程。左侧的因果推理过程给出了正确答案:鲍鱼的年龄导致了其长度;右侧的例子需要同样的因果知识,但大语言模型的论证不连贯,给出了错误答案。





2. 大语言模型用于现实因果推理




  • 反事实推理

论文的第二部分关注反事实推理。大语言模型能否从自然语言中推断因果关系?

例如:一个女人看到了火。如果女人触摸了火,会发生什么?

对于实际因果关系,由于人类需要判断相关变量及其因果贡献,这是一个非常具有挑战性的任务。GPT3.5/4 在这方面优于现有算法。在预测日常反事实情况结果的 CRASS 基准测试中,GPT-4 获得 92% 的准确率,比之前的最好结果高出 20%。

  • 推断必要和充分原因

接下来,大语言模型能否推断必要和充分原因?研究中考虑了15个具有挑战性的实际因果事件。GPT3.5 在这种情况下失效了,但 GPT4 仍然达到了86%的准确率。

  • 推断是否符合社会规范

这些发现意味着大语言模型可以作为工具,直接从混乱的人类文本中进行因果归因。虽然大语言模型可以从文本中推断相关变量,但评估人类因素(例如,一个行动是否被认为合乎社会规范的?)对大语言模型来说仍然是艰难的任务。在需要算法匹配人类直觉的 Big Bench 因果判断任务上,GPT-3.5/4获得了较低的准确率。




3. 大语言模型推动因果推理的新前沿




总体而言,大语言模型为因果推理带来了新的能力,与现有方法相辅相成。我们看到了因果推理充满前景的未来,大语言模型可以协助和自动化因果推理的各个步骤,在基于知识的因果推理和基于数据的因果推理之间无缝转变。

图片

图5. 在处理现实世界因果任务时,人类会在基于逻辑的因果推理和基于协变的因果推理之间转换。现在,大语言模型能够协助和自动化因果推理的每一个步骤,帮助实现协变与逻辑因果推理的统一。


大语言模型并不完美,具有不可预测的失效模式。鲁棒性检测表明存在记忆的因果关系,这部分解释了大语言模型的表现。因此,我们仍然需要原理性的因果算法,不过大语言模型可以用来扩展其范围和能力。

展望未来,这项工作提出了更多问题而非给出答案。大语言模型如何帮助重新发明或增强现有的因果任务,如何让大语言模型的推理更加鲁棒,是许多研究关注的问题。

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多