梅拉妮·米歇尔访谈：人工智能十二问

小飞侠cawdbof0 2023-06-19 发布于北京

展开全文

来源：元战略

编译：周苡 Allen Wang

导语

过去几年，人工智能一直是热点话题，而近几个月伴随着ChatGPT的横空出世，关于人工智能的讨论更是不胜枚举。支撑ChatGPT的是一个名为GPT-3.5的大语言模型（LLMs），能够生成流利的文本，并回答各种问题。而今年3月发布的最新版本GPT-4则更上一层楼，可执行超出训练范围的任务，展现出通用人工智能的迹象。

那么这些人工智能模型到底有多聪明？它们的崛起对人类又意味着什么? 《新科学杂志》就此采访了计算机科学家梅兰妮·米切尔，向其提出了十二个问题，以下为访谈纪要。

梅拉妮·米切尔

Melanie Mitchell

圣菲研究所（Santa Fe Institute）教授，师从侯世达，主要研究领域为人工智能、认知科学和复杂系统，著有畅销书《复杂》、《AI 3.0》等。

一、为何目前人们都将目光转向人工智能？

ChatGPT等大语言模型对公众开放，任何人都可使用这些模型，了解其能力。大语言模型进入飞速发展阶段。过去五年，大语言模型逐步发展成熟，经过训练后能够生成媲美人类作家的文本。这种“类人智能”表现让人们不禁产生错觉，电影和科幻小说中所描述的人工智能终于出现了，人们对此感到好奇，同时也感到一些恐惧。

二、如今，生成式人工智能已发展到何种水平？我们该如何对其进行评估？

有关人工智能水平的争论有很多，造成这种局面的原因在于智力、认知和意识等我们所关心的这些概念定义不明；其次，这些人工智能模型的运行机制与人类思维非常不同。最近，我们看到GPT-4成功通过了美国律师资格考试，如果一个人成功通过资格考试，我们一般会认为他拥有很高的一般智力，但谁能断言这样的测试同样适用于评估人工智能呢?

三、这些大语言模型本质是什么?其智能水平如何？

让我们从简单的语言模型概念讲起。选取一个短语，比如“绿色青蛙”，然后在大量的文本中搜索这一短语，看看哪些单词通常跟在这个短语后面，如“跳跃”或“游泳”，但不太可能是“花椰菜”。每个单词出现在这个短语之后的概率是多少?通过存储大量可能出现的单词序列概率，可以从文本提示开始查找下一个最可能的单词是什么，这就是简单语言模型的工作原理。

现在巨大的神经网络模型执行这个计算单词概率的任务，并用大量的文本训练它。这些巨大的神经网络模型被称为“大语言模型”，可以学习短语之间非常复杂的统计关联。问题在于，由于神经网络模型及其操作的复杂性，很难深入了解并确切说出为预测下一个单词其受到的训练。

四、既然这些大语言模型实际所做的只是预测下一个单词，为何说已经堪比人类智能了？

我们很难评估语言模型的智能水平，尽管如此，当前还是存在三种基本的评估方法，分别为：

一是与语言模型进行互动，通过交谈、问问题和出谜语，测试语言模型的反应，进而做出判断。这类似于图灵测试，即机器是否具备人类的能力？而问题在于人类习惯将智能归功于非智能因素；

二是做一些逻辑对比试验，如给人工智能模型两个句子组合。一个组合中，第一个句子与第二个句子存在逻辑联系，而另一个组合的句子间没有逻辑联系。这些大语言模型在判断句子逻辑关联方面非常优秀。但事实往往证明，它们做得好并不是因为能像人类那样理解句子，而是使用了统计关联方法；

三是可以从神经网络模型入手，试着了解机器解决问题的机制。人们正在研究这个问题，但这非常困难，因为这个系统太复杂了。所以目前为止还没有万无一失的成型的测试方法来评估这些语言模型的能力。

五、当前努力理解人工智能模型的能力是否会加深对智能和认知的认识？

人工智能的整个发展史都是如此。在20世纪70年代和80年代，很多人都说，如果人工智能在国际象棋领域要达到特级大师的水平，需要拥有一般人类的智力。然后我们发明出了“深蓝”（Deep Blue）超级计算机，击败了国际象棋大师加里·卡斯帕罗夫（Garry Kasparov）。如今历史再次重演，规则再一次被改变。但从更积极的角度来看，人工智能将继续挑战我们对智能的概念，或者我们对认知的定义。

我们知道智力有几种不同的表现形式，例如，人类智能与章鱼的智能非常不同，也与生成式人工智能的能力不同。我们中的一些人一直在用“多元智能”这个词来强调智能不止一种。我们如何描述这些不同的智能?它们有什么共同特点吗?它们完全不同吗?这些都是我们需要解决的问题。

六、大语言模型有何惊艳之处？

近期常有人将大语言模型的表现称之为“涌现现象”，即大语言模型不仅具有语言处理能力，而且貌似已具备类似人类的逻辑推理能力，可解答数学题、编写计算机代码、分析故事人物性格。然而，人们尚不清楚这一切能力背后的运行机制。大语言模型卓越的表现甚至让人一度认为它们经受海量人类文本训练后，可以感知当今世界。因此，当前困扰大众的难题就是大语言模型可以像人类一样进行逻辑推理吗？还是只是通过复杂的统计关联来运行？它为何不能和人类一样进行推理？

七、当前对大语言模型背后的运行机制有何重要认识？

鉴于每月各大科技公司和研究院都会推出新的大语言模型，开发新的功能，因此现在去解释其背后的运行机制还为时尚早。对于GPT-3，人们至少还能了解其背后的训练数据。而到了GPT-4，就无法做到这一点。OpenAI给出的解释是，GPT-4作为一款商业产品，为保持其竞争优势，同时考虑到安全因素，无法对外公开其训练数据。大语言模型的不透明导致无法研究其背后的运行机制。

八、当前人工智能技术是否已显露通用人工智能的特征？或者需要另辟蹊径来开发通用人工智能？

我们需要先回答：何为通用人工智能？对此众说纷纭，莫衷一是。因此如果当前我们连研究目标都没有搞清，谈何研发通用人工智能。心理学界一直有人质疑人类是否具备一般智力。人类智力对人类进化历程的作用十分特殊，并非我们所想的那样具备一般性。基于此，我认为单凭大语言模型不断迭代更新，无法研制出具有类似人类认知能力的人工智能。我们期盼人工智能不仅仅具有语文理解力，还应具备视觉理解力，具备在给定环境理解并作出正确决策的能力。

为实现这一点，我们将需要开发不同的架构。以GPT-4为例，该类语言模型不具备长时记忆，因此记不住过去的对话，从某种意义上讲，它们并不关心自己过去讲过什么。有学者指出，人类大部分智力都是以动机为导向，人类通过智力实现进化所设定的目标。如果一个系统没有任何动机，或者说没有自己的目标，将无法具备类似人类的智能。

九、有人认为人工智能将拥有知觉或有意识，你如何看？

数千年前，哲学家就指出，如何知道对方是否有意识？人类可以感知自身的意识，而无法感知他人的意识，对方也许是头僵尸呢？同理，我并不清楚何为有意识的人工智能，而且关于这一问题的争论永无定论，因此我不愿意去思考这一问题。

十、大语言模型将如何应用于日常生活？我们应该如何与其相处？

有些应用平平无奇，如帮助写邮件或者报告，提升人类工作效率；有些应用也许颠覆想象，这很难预测，如代替律师诉讼，帮助医生诊断疾病，制定医疗方案。对此，我无法预测。但就目前而言，大语言模型仍存在许多缺点，需要人类对其监管。人类需要具备辨别真假信息的能力，而这正是目前大语言模型的一个致命弱点。

十一、上个月，数千名人工智能领域知名专家学者联名签署一封公开信，呼吁暂停人工智能研究。当前我们的步子迈得太快了吗？

也许是这样的。政策法规往往跟不上技术的发展速度。对于人工智能而言，在医疗、法律、新闻业等领域部署人工智能系统存在诸多风险。尽管如此，我并没有签署那封信，因为该公开信泥沙俱下，其中一些风险真实存在，而有些风险存在夸大之嫌。其所描绘的人工智能危机无法令人信服。我认为需要对人工智能进行监管。即便是人工智能技术的日常应用也存在诸多风险，如偏见和不实信息。但我认为暂停人工智能技术研发并非良策。相反，我们应该了解其训练数据，而不应单纯相信OpenAI所说的“相信我们，我们知道自己在做些什么”。

十二、你如何评价当前人工智能技术的风险与益处？

首先，这些系统尚不可靠，也不具备意识，无法决定是否会做出对人类有害的事，真正可能造成伤害的是使用这些系统的人类，因此我们需要对其进行监管；

其次，我们尚未搞清人工智能的运行机制，但这并不意味着人工智能很神秘，只是非常复杂罢了。只要不断钻研下去，人类迟早会完全理解人工智能的运行机制。要想做到这一点，就不能让这些系统都掌握在商业公司手中。这些语言模型提供了一个契机，帮助我们加深对认知力的认识。从它们身上，我们可以更好地理解人类自身，如人类智力的作用机制，一般智力如何发挥多样作用。不过与此同时，我们必须保持清醒的认识，警惕在现实世界中部署此类模型所涉及的危险、风险和问题。

文章译自：New Scientist官网

文章题目：

How smart is ChatGPT really – and how do we judge intelligence in AIs?

文章链接：

https://www./article/mg25834351-800-how-smart-is-chatgpt-really-and-how-do-we-judge-intelligence-in-ais/