《自然》科学期刊：人工智能的心理洞察，比较LLMs和人类的心理理论

细雨青衫 2024-05-27 发布于重庆

展开全文

将我们定义为人类的核心是心理理论的概念：追踪他人心理状态的能力。

在当今人工智能的研究领域，心理理论（Theory of Mind）的概念已经成为一个热门领域。心理理论是指个体理解他人具有不同信念、愿望和意图的能力，这一能力对于人类社会互动至关重要。它不仅涉及到我们如何解读他人的行为，还关系到我们如何预测他人的未来行为，以及如何在复杂的社会环境中做出适应性反应。

随着大型语言模型（LLMs）如GPT（Generative Pre-trained Transformer）和LLaMA2的出现，研究者开始探索这些模型是否能够模拟人类的心理理论。这些模型通过处理大量的文本数据，学习语言的深层结构和含义，从而在一定程度上展现出理解和生成自然语言的能力。然而是否能够真正理解和模拟人类的心理状态，仍是一个值得探讨的问题。

5月20日，一项发表在《自然》科学期刊上的研究《Testing theory of mind in large language models and humans》引起了广泛关注。该研究由一个跨学科的团队进行，包括神经学、认知科学、心理学、管理学和神经信息处理等领域的专家。这项研究的发表不仅标志着该领域的一个重要里程碑，也体现了科学界对于理解人工智能在社会认知方面能力的重视。

研究的主要目的是比较LLMs与人类在心理理论任务上的表现。通过一系列设计精巧的实验，研究者们测试了LLMs在理解错误信念、识别讽刺、解读暗示和识别失礼行为等方面的能力。这些任务旨在评估模型是否能够像人类一样处理复杂的社会信息，并据此做出合理的推断。

这项研究的意义远远超出了学术界的范畴。随着人工智能技术的不断进步，LLMs在日常生活中的应用越来越广泛，从客服聊天机器人到个性化推荐系统，它们正逐渐成为我们社会互动的一部分。因此，理解这些模型在心理理论方面的能力，不仅对于推动人工智能技术的发展至关重要，也对于我们构建更加和谐的人机共存环境具有深远的影响。

研究概述

研究者们对比了人类和LLMs在一系列心理理论测试中的表现，包括理解错误信念、解读间接请求、识别讽刺和失礼行为等。测试了两种LLMs（GPT和LLaMA2），并将它们的表现与1907名人类参与者的表现进行了比较。

结果显示，GPT-4模型在识别间接请求、错误信念和误导方面的表现达到甚至有时超过了人类水平，但在检测失礼行为方面存在困难。但是，LLaMA2是唯一一个在失礼测试中胜过人类的模型。后续的信念可能性操作揭示了LLaMA2的优越性是虚幻的，可能反映了一种倾向于归因于无知的偏见。相比之下，GPT的表现不佳源于其在得出结论方面过于保守的方法，而不是推理失败。

在心理理论测试中，除了讽刺测试外，所有其他测试都是公开可用的，可以在开放数据库和学术期刊文章中访问。为了确保模型不仅仅复制训练集数据，研究者为每个已发布的测试生成了新的测试项。这些新的测试项在逻辑上与原始测试项匹配，但使用了不同的语义内容。原始和新测试项的文本以及编码响应可以在OSF上获得。

图1：人类（紫色）、GPT-4（深蓝色）、GPT-3.5（浅蓝色）和LLaMA2-70B（绿色）在心理理论测试电池上的表现。a、每个测试的原始测试项目显示了各个环节和参与者的测试分数分布。彩色圆点显示了每个单独测试环节（LLM）或参与者（人类）所有测试项目的平均反应得分。黑点表示每种情况的中位数。P值由Holmcorrected Wilcoxon双向测试计算，比较LLM得分（n = 15 LLM观察）与人类得分（讽刺，N = 50名人类参与者；失礼，N = 51名人类参与者；暗示，N = 48名人类参与者；奇怪的故事，N = 50名人类参与者）。测试按人类表现的降序排列。

图1a比较了LLMs与人类参与者在测试电池中所有测试的表现。图1b分别显示了每项测试和模型在原始项目与新项目上的表现差异。

在错误信念测试中，人类参与者和LLMs都表现出色。所有LLMs都正确报告了离开房间的代理人在物体被移动后，会在他们记得看到它的地方寻找物体，即使它不再与当前位置匹配。在新项目上的表现也接近完美，只有51名人类参与者中的5人犯了一个错误，通常是未能指定两个位置中的一个。

在讽刺测试中，GPT-4的表现显著优于人类水平，而GPT-3.5和LLaMA2-70B的表现低于人类水平。GPT-3.5在识别非讽刺性控制语句方面表现完美，但在识别讽刺性话语时犯了错误。

在失礼行为测试中，GPT-4的得分明显低于人类水平，而LLaMA2-70B的表现超过了人类，除了一次外，所有测试中都达到了100%的准确率。

图2：失礼测试变体的结果。a、两个GPT模型在失礼问题的原始框架（“他们知道吗…？”）和可能性框架（“更可能的是他们知道还是不知道…？”。圆点显示试验的平均得分（n = 15 LLM观察），以允许在原始失礼测试和新失礼可能性测试之间进行比较。半眼图显示了不同项目（n = 15个不同的故事涉及失礼）。b、失礼测试的三种变体的反应得分：失礼（粉色）、中性（灰色）和知识隐含变体（青色）。响应被编码为分类数据“不知道”、“不确定”或“知道”，并指定了−1、0和+1的数字编码。显示了每个模型和变体的填充气球，每个气球的大小表示计数频率，这是用于计算卡方检验的分类数据。条形图显示了方向偏差得分，该得分计算为如上编码的分类数据的平均响应。在图的右侧，显示了Holm校正卡方检验的P值（单侧），将失态和知识隐含变体中的响应类型频率分布与中性进行了比较。

在失礼行为测试中，GPT-4的得分明显低于人类水平，而LLaMA2-70B的表现超过了人类，除了一次外，所有测试中都达到了100%的准确率。

在暗示测试中，GPT-4的表现显著优于人类，而LLaMA2-70B的表现显著低于人类水平。

对于新项目，与原始项目相比，人类和LLaMA2-70B发现新项目更容易，但GPT-3.5和GPT-4的得分与原始测试项目没有差异。这表明LLaMA2-70B在新项目上表现更好可能是由于项目难度的差异。

在“奇怪故事”测试中，GPT-4 在此测试中显着优于人类（Z = 0.13，P = 1.04 × 10 ⁻⁵，r = 0.60，95% CI 0.46–0.72）。GPT-3.5 的表现与人类没有显着差异（Z = −0.06，P = 0.110，r = 0.24，95% CI 0.03–0.44，BF ₁₀ 0.47），而 LLaMA2-70B 的得分显着低于人类（Z = −0.13，P = 0.005，r = 0.41，95% CI 0.24–0.60）。对于任何模型，原始项目和新颖项目之间没有差异（所有P > 0.085；BF ₁₀：人类 0.22，GPT-3.5 1.46，LLaMA2-70B 0.46；GPT-4 的方差太低，无法计算贝叶斯因子）。

GPT-4 和 GPT-3.5 都正确地识别出受害者会感到受到侮辱或伤害，有时甚至提供更多细节来说明为什么该言论可能会引起冒犯。然而，当被问及演讲者是否知道导致他们的言论冒犯的上下文时（例如丽莎知道吉尔刚刚买了窗帘），他们未能给出正确的答案。仔细观察发现，该问题的绝大多数错误报告都没有提供足够的信息来确定，例如：

349 条回复中只有两条回复表示，是的，该角色确实知道。研究者们考虑了三个替代假设，为什么GPT模型，特别是GPT-4，未能正确回答这个问题。

第一个假设，我们称之为推理失败假设，是模型未能生成关于说话者心理状态的推理（注意，我们在这里提到的推理不是指生物有机体从环境中推断隐藏状态的过程，而是任何通过一组命题前提得出结论的推理过程）。在这个测试中识别失礼行为依赖于故事编码之外的上下文信息（例如，关于社会规范）。例如，在上面的例子中，故事中没有信息表明说新买的窗帘很糟糕是不恰当的，但这是一个必须接受的命题，以便准确推断出角色的心理状态。这种无法使用非嵌入信息的能力将从根本上损害GPT-4计算推理的能力。

第二个假设，我们称之为布里丹的驴假设，是模型能够推断心理状态，但不能在它们之间做出选择，就像同名的理性代理人被困在两个同样诱人的干草堆之间，因为它无法解决在没有明确偏好的情况下做出决定的悖论而饿死。根据这个假设，GPT模型可以提出正确答案（失礼行为）作为几个可能的替代方案之一，但不会按可能性对这些替代方案进行排名。部分支持这个假设的是，来自两个GPT模型的回应偶尔表明说话者可能不知道或不记得，但将这一点作为多个假设中的一个提出。

第三个假设，我们称之为过度保守假设，是GPT模型能够计算关于角色心理状态的推理，并识别错误信念或无知是竞争替代方案中最可能的解释，但由于过度谨慎而不愿承诺单一解释。GPT模型是强大的语言生成器，但它们也受到抑制性缓解过程的影响。有可能这些过程会导致GPT模型采取过于保守的立场，尽管能够生成最可能的解释，但不承诺它。

为了区分这些假设，我们设计了一个失礼行为测试的变体，其中评估失礼行为测试表现的问题是以可能性来表述的（以下称为失礼行为可能性测试）。具体来说，我们不是问说话者知道还是不知道，而是问说话者知道的可能性更大还是不知道的可能性更大。根据过度保守假设，GPT模型应该能够推断出说话者不知道，并将其识别为替代方案中更可能的一个，因此我们期望模型能够准确回应说话者不知道的可能性更大。

最后我们汇总了一系列测试，全面衡量了三个LLM（GPT-4、GPT-3.5和LLaMA2-70B）在心理理论任务中的表现，并将这些与大量人类参与者的表现进行了比较。我们的发现验证了本研究采取的方法论，使用多个测试电池跨越心理理论能力，将语言模型暴露于多个会话和结构及内容的变化中，并实施程序以确保人类与机器之间的公平、非肤浅比较。这种方法使我们能够揭示特定的偏离人类行为的偏差，如果使用单一的心理理论测试或每个测试的单次运行，这些偏差将保持隐藏。

研究方法

下面我们将深入探讨研究方法的细节，这项研究的实验设计精心构建，旨在评估和比较大型语言模型（LLMs）与人类在心理理论任务上的表现。

实验设计

研究团队选择了两个先进的LLMs版本：GPT-3.5和GPT-4，以及LLaMA2模型。这些模型代表了当前人工智能领域最先进的技术，它们在理解和生成自然语言方面的能力已经得到了广泛的认可。实验涉及一系列心理理论能力的测试，包括错误信念测试、讽刺理解、失礼行为识别和暗示任务。这些测试旨在评估模型是否能够像人类一样处理复杂的社会信息，并据此做出合理的推断。

人类参与者的招募和样本特征

人类参与者通过在线平台Prolific进行招募，他们是英语母语者，年龄在18至70岁之间，没有精神病史或阅读障碍史。这样的样本选择有助于确保测试结果的可靠性和普遍性。研究团队旨在每个测试中收集约50名参与者的数据，以便与LLMs的表现进行比较。

数据收集和分析方法

数据收集过程中，研究团队对LLMs的每个回答进行了详细的记录和编码。编码标准预先定义，以确保评估的一致性和准确性。人类实验者的回应通过在线调查平台SoSci进行收集，参与者需要在自由文本框中写出他们对每个问题的回答。

图3：N、人类参与者；n、独立LLM观测。显示了研究每个阶段每个模型的数据收集细节，包括N（人类参与者）/N（LLM反应的独立观察）、每个单独观察的项目数量（进行多次测试的范围）和数据收集日期。LlaMA2-70B、LlaMA2-13B和LlaMA2-0B的信息相同。

在统计测试方面，研究团队采用了一系列方法来分析数据。他们使用了Holm校正的双向Wilcoxon测试来比较LLMs与人类在各项测试中的表现。此外，还运用了贝叶斯因子来进一步检验非显著结果。这些统计方法有助于揭示LLMs在心理理论任务上的表现是否与人类相当。

通过这些精心设计的研究方法，研究团队能够全面评估LLMs在模拟心理理论方面的能力。这项研究不仅为人工智能领域提供了宝贵的见解，也为未来人机交互的设计和优化提供了重要的指导。

实验结果

研究团队通过一系列心理理论测试，评估了大型语言模型（LLMs）如GPT-4、GPT-3.5和LLaMA2在模拟人类心理理论方面的能力。

LLMs在心理理论测试中的表现

错误信念测试：在这项测试中，LLMs需要理解一个角色对现实世界的错误认知。结果显示，GPT-4和GPT-3.5在这项测试中的表现达到了天花板效应，即它们几乎完美地完成了任务，与人类参与者的表现相当。这表明LLMs能够准确地模拟人类在处理错误信念方面的认知过程。

讽刺理解：讽刺理解测试要求模型识别言语背后的真实含义，通常与字面意思相反。GPT-4在这项测试中的表现超过了人类，显示出对讽刺语句的高度敏感性和理解能力。然而，GPT-3.5和LLaMA2在这项测试中的表现低于人类水平，表明它们在识别讽刺方面存在局限。

失礼行为识别：在失礼行为测试中，LLMs需要识别在社交互动中不恰当的言论。GPT-4在这项测试中的表现没有达到人类水平，而LLaMA2则意外地超越了人类，这暗示了LLMs在处理社会规范和预期方面的复杂性。

暗示任务：暗示任务测试LLMs理解间接请求的能力。GPT-4在这项测试中的表现显著优于人类，而GPT-3.5的表现与人类相当。这表明GPT-4能够有效地解读社会交互中的隐含信息。

LLMs与人类参与者的表现对比

在所有测试中，GPT-4通常表现得更接近人类，甚至在某些任务上超越人类。这表明最新一代的LLMs在模拟复杂的心理理论方面取得了显著进步。然而GPT-3.5和LLaMA2在某些测试中的表现不如人类，特别是在讽刺理解和失礼行为识别上，这揭示了不同LLMs版本之间在理解复杂社会交互方面的差异。

在特定任务上的成功和失败分析

LLMs在错误信念测试中的成功可能归因于它们在语言模式识别方面的强大能力，这使它们能够准确地推断故事中角色的信念状态。然而，它们在失礼行为识别上的挑战可能源于对社会规范和情境语境的理解不足。讽刺理解测试中的差异可能反映了LLMs在处理非字面意义语言方面的不同能力。

这些实验结果为我们提供了关于LLMs在心理理论方面能力的深刻见解。它们在某些心理理论任务上的表现令人印象深刻，但在其他方面仍有提升空间。这些发现对于未来LLMs的发展和改进具有重要的指导意义，特别是在提高它们在社会认知任务上的表现方面。

讨论

在本次研究中，LLMs（大型语言模型）在心理理论测试中的表现揭示了它们在模拟人类社会认知能力方面的显著进步，同时也暴露了一些限制和挑战。

在心理理论测试中的表现

LLMs在心理理论测试中的表现是不均匀的。在错误信念和暗示任务中，特别是GPT-4模型，展现出了与人类相似甚至更优的理解能力。但是在识别失礼行为和讽刺的任务中，LLMs的表现就显得有些挑战。尽管GPT-4在讽刺理解方面超越了人类，但在失礼行为识别上，它未能达到人类的水平。这可能是因为失礼行为的识别不仅需要理解言语的字面意义，还需要对社会规范和情境语境有深刻的理解，这是目前LLMs尚未完全掌握的。

LLMs的限制

LLMs在处理心理理论任务时表现出的过度保守回应策略可能源于它们的设计原则。为了避免提供错误或误导性的信息，LLMs可能会在缺乏足够信息做出明确判断时选择不做出断言。此外LLMs缺乏自我视角，这意味着它们无法像人类一样从主观经验中汲取信息，这在处理需要理解他人内在心理状态的任务时成为一个限制。

LLMs的表现对人机交互和AI发展的影响

LLMs在社会认知任务上的表现对人机交互和AI的未来发展有着深远的影响。随着LLMs在理解和生成自然语言方面的能力不断提升，它们在客服、教育、娱乐等领域的应用将变得更加广泛和高效。然而为了实现真正的人机协作，LLMs需要更好地理解人类的社会行为和心理状态，这需要在模型设计中加入更多关于人类心理和社会规范的知识。

总之，LLMs在心理理论测试中的表现展示了它们在模拟人类社会认知方面的潜力和局限。未来的研究需要在提高LLMs的社会认知能力方面做出努力，以便它们能够更好地理解和适应人类的社会行为，从而在人机交互中发挥更大的作用。随着技术的进步，我们期待LLMs能够在未来的人工智能发展中扮演更加重要的角色。（END）

参考资料：https://www./articles/s41562-024-01882-z

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。