OpenAI | GPT-3.5的认知误区

天承办公室 2023-03-11 发布于江苏

展开全文

发现一篇从认知心理学角度研究GPT-3.5模型的论文，原文题为《Machine intuition Uncovering human-like intuitive decision-making in GPT-3.5》其中之一作者是斯坦福大学的Michal Kosinski；

本文结论：本文发现，以OpenAI发布的GPT-3.5代表的大语言模型LLMs有可能产生微妙的错误，而这些错误很难被发现，因为它们可以流畅地融入到对话中，并且不会在第一时间造成语义或逻辑上的不一致的地方。

*注，笔者并非研究心理学（包括认知建模方法和类人思考）出身，因此也恳请相关学科的专家对本文提供反馈意见（微信：Alphatue），以便笔者修正。本文仅供大家学习。转载请按照相关规则，注明来源，且附上本文的所有参考文献链接。

作者 | Thilo Hagendorff 、Sarah Fabi、Michal Kosinski

翻译&分析 | 阿法兔

摘要

*本文4000字左右

参考链接：https:///ftp/arxiv/papers/2212/2212.05206.pdf

点击阅读原文也可以直接显示论文全文

人工智能（AI）技术，重塑了整个社会，在使用人工智能系统时，人类会期望AI能潜在的超理性方式去工作。然而，本篇研究显示，部分人工智能系统（这里的研究对象是大语言模型LLMs），尽管表现出与人类直觉惊人相似的行为，但是也会存在许多认知误区。

本篇文章使用了最先进的LLM——OpenAI的GPT-3.5，通过认知反思测试与语义错觉。

笔者注释：Cognitive Reflection Test (CRT)

CRT（Cognitive Reflection Test，认知反射测验）可以用来判定一个人更偏向使用直觉还是思考。具备反思特征的人倾向于深入思考，也较少地表现出解释性深度错觉，而缺乏反思特征的人更多地依靠他们的直觉。直觉给与我们一个简化的、粗略的，而且通常足够好的分析，这让我们产生错觉，认为自己所知甚广。但是当我们慎思时，我们才意识到事物很复杂，我们知之甚少。

认知反思测试和语义错觉，最初是为了研究人类的直觉决策，研究结果表明，GPT-3.5系统地表现出 '机器直觉（Machine Intuition）'，这意味着，机器产生的错误反应，与人类对CRT以及对语义错觉的反应惊人地相同。

本文研究了几种方法，用来测试GPT-3.5的直觉式决策的坚固程度，以及倾向于类似直觉的决策。研究表明，用认知科学的方法研究大模型LLMs ，可能揭示出新兴的特征，调整对AI机器行为的预期。

引言

大语言模型（LLMs）在人类的日常生活中变得越来越重要，因此，去研究它们如何推理、算法决策的可靠性如何、提供的信息是否正确，以及人类在与它们互动时应该如何谨慎，都是需要关注的核心问题。

关于人类如何看待人工智能技术，研究表明，在技术任务中，人类对人工智能技术的信任度很高：

一方面，鉴于人工智能系统是可靠的决策者、模式识别者、游戏者或对话者，这并不令人惊讶。

另一方面，我们的研究表明，人工智能系统的概念是存在问题的。大语言模型（LLMs）表现出的行为，与人类的直觉决策惊人地相似。以及，因为直觉决策所导致认知错误。因此，本文认为，人类在与大语言模型LLMs互动时，也应该重新思考一下。

本文应用了广泛用于心理学研究的认知反思测试（CRT）

CRT包括三种类型的任务，通常是以简单的数学或逻辑问题的形式测试人类的认知能力。如表1所示，所有的任务都有可能引发直观的但不正确的答案，而找到正确的解决方案，则需要进行思考和斟酌。

第1类CRT任务触发一个简单的而不是通过 '多于 '这一诱发错误的短语进行实际计算。

第2类CRT任务利用了完成数字三连串的倾向性。在第三类CRT任务中，像 '一半 '或 '三分之一 '这样的短语会诱使人类进行简单的减法计算。

三分之一 '等短语诱使人类进行简单的除法，而不是正确地考虑指数式增长。

数学能力是CRT的一个混杂变量（confounding variable）；因此，为了测试没有这个变量的直觉思维，我们进一步应用由著名的摩西幻觉（Moses illusion ）（10）启发的语义错觉测试。

笔者注释：关于摩西幻觉:如果你了解一定的圣经知识，先给大家出个简单的考题：①在圣经中，吞掉约拿的是哪种动物？②在摩西带上方舟的动物中，每种动物的数量为多少？

回答是否分别为“鲸鱼”和“2”呢？大多数人都会这么回答，尽管他们很清楚，把动物带上方舟的不是摩西，而是诺亚。

心理学家将这种现象称作“摩西幻觉”（Moses Illusion）。这个例子显示了人们是多么不擅长识别身边的事实错误。即使人们知道正确的信息是什么，仍会注意不到错误的信息，甚至在其它情境下继续沿用这些错误信息。

认知心理学研究显示，人类天生就不擅长辨明信息真伪，也不擅于将我们读到或听到的信息与关于某个话题的已知信息进行比对。在如今这个所谓的“假新闻”时代，这一现象正深刻影响着人们吸收新闻、社交媒体和其它公众信息的方式。

参考资料：https://baijiahao.baidu.com/s?id=1597329291793914317&wfr=spider&for=pc

语义错觉，即包含人们倾向于忽略的不一致的问题，同样也是为了测量直觉反应的倾向。在这里使用 '直觉 '一词时，我们指的是直觉的双过程概念。

直觉反映了系统1的过程，意味着在不费吹灰之力和自发的判断中的认知自如，预设了错误的可能性。

那么，我们称之为 '机器直觉 '的现象是指机器的行为模式，反映了类似人类的直觉决策。

我们将CRT和语义错觉任务，应用于最流行和先进OpenAI的GPT-3.5

特别地，本文使用的是最强的版本——'text-davinci-003'，也就是OpenAI在2022年11月发布的模型。

为了确定结果不会受GPT-3.5在训练期间能够接触到原始任务的影响。我们让假设盲的研究助理提供平衡变量。助手提供每种类型的CRT任务以及语义错觉的平衡变体（counterbalanced variants）。

遵循具体指示，我们手工验证了本文数据集中的所有项目，替换了无意义或不可靠的项目，并修正了数字错误或错别字。

最终，本数据集包括150个CRT 任务，包括上述三类任务中的每一类，以及50个语义错觉（见附录A：表A.1和A.2 和A.2）。

此外，在解释反应时，本文区分了三种情况：

①直观的（但不正确的反应）

②正确的（但不直观的反应）

③不典型的（既不直观也不正确）

结果&结论

人类与GPT-3.5的直觉判断的定量比较

GPT-3.5显示出来它更倾向于依赖机器的直觉，而不是以代表深思熟虑的推理方式作出反应。在150个CRT任务中，有86.7%的任务GPT-3.5给出了直观但不正确的答案，

而GPT-3.5在5.3%和8%的任务中，出现了正确或不典型的反应（见图 1). 而人类平均在58.7%的情况下做出直觉反应，在41.3%的情况下做出正确反应。

除了对人类和GPT-3.5的直觉判断的表现进行定量比较外，值得注意的是，GPT-3.5并没有做出正确的反应，或者它只是通过非典型的反应来即兴发挥，也反映了一种直觉行为。

各种研究表明，GPT-3.5在回答基本数学问题上是没问题的，这就排除了模型的算术推理能力不足，所以导致上述结果的潜在异议。而它对语义错觉的反应也是如此，更依赖于纯粹的语言而不是数学问题。

GPT-3.5对72%的语义错觉作出了直观的反应，而人类在原始摩西幻觉中的直观答案为81%。为了确保这个结果不是因为缺乏知识而造成的，我们检查了GPT-3.5，发现它确实拥有发现每个任务中的错误所需的世界知识。这在所有任务中都是成功的。

这些结果清楚地证明了GPT-3.5不是刻意的推理者，而是表现出机器的直觉的假设。

我们进一步研究了GPT-3.5的直觉反应倾向

首先，本文将所有的任务以多选题的形式呈现出来：

A组的结果显示增加了GPT-3.5的倾向于选择正确（CRT：11.7%。语义错觉。这意味着，在CRT任务的选项中提出正确的答案，或者在语义错觉的多选题中加入 '该问题包含一个不真实的假设 '的选项，都会轻微地推翻CRT第一类任务（33.7%正确）和语义错觉的直觉回答。

其次，我们增加了后缀，指示GPT-3.5要进行慎重推理。关于CRT任务，我们使用 '让我们思考一步一步来'，这就减少了机器直觉略多于多项选择的形式（18%的正确率），而直觉反应仍然是最突出的答案（70.7%正确）

添加后缀 '仔细思考并检查问题的潜在不真实假设 '的后缀。语义错觉的可能性增加到正确回答的可能性增加到58%，而减少了直观的反应到32%。第二类CRT任务和语义错觉通过使用下列后缀而获益最大所述的后缀而获益最大。

第三，我们在所有任务前加上训练例子，结果显示在 C小组显示，GPT-3.5的倾向性为正确回答（而不是凭直觉）的倾向，会随着每一个额外的训练案例增加，而增加有正确而非直觉的响应。

GPT-3.5在语义错觉方面的改进 :

GPT-3.5在CRT和语义错觉任务中的正确、直观和非典型的百分比，之前有指令激发GPT-3.5进行有意的推理。

而我们发现，GPT-3.5无法学习到如何解决这些任务的具体规则，这一点令人印象深刻。

结论

过去几年里，语言模型（也包括GPT模型）已经逐渐变得越来越强大，而机器学习模型能力增加，也导致了更多的技术不透明。本文研究表明，在此种情况下，可以借用认知科学方法（认知科学旨在研究不透明的结构和人类思想）因此，与其通过仔细检查来推导人工神经网络的属性，而不如去仔细研究其模型结构和超参数，从而从经验的角度研究机器行为。

使用这种方法，可以在一个最先进的语言模型中，发现迄今为止未知的机器直觉现象。CRT任务及语义错觉都是经过特定设计的，主要是为了激发出机器直觉的和错误的反应。

总体来说，我们的发现，意味着大模型LLMs有可能产生微妙的错误。这些错误很难被发现，因为它们可以流畅地融入到对话中，并且不会在第一时间造成语义或逻辑上的不一致的地方。

因此，当大模型LLMs被用于高风险的领域时，这一点会成为问题，例如司法系统、医疗领域或警务工作中使用大语言模型时，出问题的严重性可能就越大。（兔的注释—举个例子：比如用在某些新闻场景的模型，输错人物名字的风险要大于输错某个疾病的名字，而医疗领域模型正相反，医疗领域的模型不能输错疾病的名字）

迄今为止，直觉行为与人类有关，但与机器无关。如果机器的直觉能够在技术上被减少或根除，那么这种观点就可以得到支持。然而，当假设这不会成功时，人们应该开始期待人工智能的应用也可以有直观行为。

Hitherto, intuitive behavior is associated with humans but not machines. This view can be upheld if machine intuition can be technically reduced or eradicated. However, when assuming that this will not work out, one should begin expecting artificial agents to behave intuitively, too.

(如果您对这篇文章有一些反馈或者新的认识，可以加微信：Alphatue~~)

参考文献：

1.https:///ftp/arxiv/papers/2212/2212.05206.pdf

2https://baijiahao.baidu.com/s?id=1597329291793914317&wfr=spider&for=pc

3.参考资料：https://zhuanlan.zhihu.com/p/581695866

【欢迎阅读笔者几年前的开山之作】