智能何以涌现？ || 浅谈大语言模型中的“涌现”现象

春潮带雨晚 2023-06-02 发布于重庆

展开全文

智能何以涌现？

——

浅谈大语言模型中的“涌现”现象

“是的，我们有灵魂。但它是由许多微型机器组成的。”

——

朱利奥·乔雷利

(Giulio Giorelli)

一

老生常谈的话题——AI具有“意识”的吗？

二

大语言模型中的涌现现象

三

智能是怎么涌现的？

老生常谈的话题

——AI具有“意识”的吗？

最近几个月，以ChatGPT、GPT4等为代表的大语言模型（Large Language Models，LLM）在学术界、工业界、舆论场等中占据了绝对焦点的地位，与之相关的各种话题的讨论持续不断，热度丝毫不减。

有一个有趣的现象是，每次当新的、性能更强大的模型出现时，人类便会将“AI是否具有意识”这个问题拿出来反复讨论，这里的“意识”可以近似替换为：思想、灵魂、自由意志等，这些词语虽然各有不同的侧重点，但都表达了相近的意思。我们总是喜欢将万事万物拟人化，因此才会纠结“AI会不会具有意识”。这种拟人化的思考范式，其实就像是古代农民想象皇帝会用金锄头种地一样，得不出什么有效的结论，尽管它很有趣。如果真的要定义一种“硅基生命”，那么它们作为一种更高级的信息系统，其实并不需要具有“意识”。

“意识”对于“智能”来说，是非必要的。

换句话来说，以Transfomer为基本架构的大语言模型的运作方式和我们人类大脑在本质上完全不同，它们依赖于反向传播等方式来学习知识，而我们人类则完全不同。即便是GPT4也只有不到一万亿个连接，而人类大脑的突触连接数量据估计有约一百万亿，然而GPT4所能学习到的关于所有事物的常识性的知识要比一个普通人多得多。

大语言模型的学习和运作方式不同于人类自身的智能方式，但在学习和理解知识上完全可能比人类更优，我们完全不必用“AI是否具有意识”这一点来衡量AI与人类大脑谁的智能方式更高级，AI和人类终究是不同的智能模式。

大语言模型中的涌现现象

总所周知，大语言模型最显著的特点就是“大”，从训练占用内存的角度科学估计，OpenAI最新发布的GPT4模型的参数量真实大小大约在1750 亿到2800 亿之间，模型训练一次的成本为千万级美元，在国内拥有这个算力和资本的公司可能不会超过2位数。虽然门槛很高，但在基础理论上，其实它并没有太多的新东西。

这里的基础理论并不是指某个具体算法，而是指人工智能神经网络理论的“可解释性”。

大语言模型的可解释性并不好，它依赖于一个非常神奇的现象，那就是涌现（emergence）。涌现现象是指模型在学习过程中，产生了一些意料之外的结果。这些结果通常是非常有趣和有启发性的，但是却很难通过传统的规则或者逻辑来解释。这种现象的产生是由于大语言模型的学习方式，它通过对大量文本数据的学习，从中发掘出一些隐含的规律和模式。这些规律和模式通常是非常微妙和复杂的，很难被人类直接察觉和理解。

好像只要计算的模型足够大，智能就可以涌现出来。力大砖飞，大力出奇迹，但可解释性不足，因此很多AI从业人员戏称自己在训练网络时是在“炼丹”，他们往往也会基于“实用主义”的立场，将这一问题暂时搁置不谈。

那么，大语言模型中的涌现现象具体表现为什么呢？一些研究者通过对大语言模型的实验发现，涌现现象通常表现为以下几种形式：

1. 语义漂移：模型在生成文本时，会出现一些与原始语义不符的结果。比如，模型在生成一篇文章时，可能会将“狗”这个词替换成“飞机”，这种结果虽然不符合常理，但是却具有一定的创意和启发性。

2. 模仿性：模型在学习过程中，会模仿原始文本中的一些特征，比如语调、风格、用词等等。这种模仿能力使得模型生成的文本更加自然和流畅。

3. 创造性：模型在生成文本时，会创造一些新的词汇和短语。这些新的词汇和短语通常是由模型自己创造的，具有一定的创意和想象力。

当今语言模型主要可以通过三个因素“扩大”：计算规模、参数规模和训练集规模。GPT3之前的GPT1和GPT2一直是百亿以内参数规模的研究，效果不尽如人意，GPT3参数规模激增到有1750 亿，并伴随令人惊叹的效果，这是不是这也是一种“涌现”现象？《失控》一书中提到“一旦机械的设计复杂性越过某个门槛，就会不可避免地“Emergence(涌现)”出目的”。

举出实际的例子就是，在LaMDA、GPT-3、Gophper等语言模型中，科学家们观测到，当训练量超过某个阈值的时候，模型的精度突然会暴增。即在训练量较小的时候，其结果与随机结果（瞎蒙）差不多，但是当训练量超过某个阈值的时候，精确度突然大幅提升。以每秒浮点运算次数（FLOPs）衡量的模型计算力。对于一个模型而言，我们通常以计算量、模型参数数量和训练集规模来衡量其大小。当前，ChatGPT用了大约1750亿个底座参数，和大约45TB的数据集。如下图所示：

LaMDA、GPT-3、Gophper、Chinchilla、PaLM五类大模型的性能表现与模型计算力之间的关系。

智能是怎么涌现的？

那么什么是涌现呢？

《牛津哲学指南》将涌现属性定义为不可预测和不可还原的：一个复杂系统的属性被说成是“涌现”的，是因为尽管它是从表征较简单成分的属性和关系中产生的，但它既不能从这些较低层次的特征中预测出来，也不能被还原成这些特征。

翻译过来就是，“Emergence(涌现)”是指一个系统在其组成部分之间的交互作用中产生出全新的、更高层次的属性、行为和规律的现象。这些新特征不可简单归因于系统内部任何一个组分和规则，也无法直接从底层组成部分的属性中推导出来。

因此，涌现是一个群体的概念，可以简单理解为群体大于个体的简单加和，或者量变导致质变。微观的复杂度到达一定量级，在宏观上会展现出完全不同的模式和特性。

但问题就在于，“涌现”是一种被观察到并总结出来的现象，而我们想知道的是现象背后的原因。

关于这一问题，我能想到的有至少两种答案。

第一种就是放弃去解释“涌现”，而是把它视为一种“公理”，一个大模型领域的公理。我们或许可以认为“涌现”现象是大模型存在的一种固有性质。总所周知，公理往往是不证自明的，就像奠定了经典物理学基础的牛顿力学三定律一样，它并不能被证明，而是被人们假设总是成立，并无法被证伪。

第二种解释可以从观测立场和知识水平入手。为什么会涌现？首先，涌现具有比较明显的“相对性”，即涌现与否，都是相对而言的。丹尼尔·丹尼特（Daniel Dennett）在研究认知哲学问题时，提出了对事物的解释存在三种策略，分别是物理立场，设计立场和意向立场。

“立场”在这里指的就是从什么层次上来解释已经发生的事实。

“物理立场”就是把某个行为系统视作为一个物理系统，它遵循着某个外部确定的物理定律。比如，要解释为什么灯会发光，通过物理学理论我们就可以解释。但有时候行为系统非常复杂，我们不可能事无巨细地去理解和掌握它运行时涉及的所有物理定律，这时我们就会把观测的立场从“物理立场”提升到“设计立场”。

“设计立场”不需要知道系统的物质构成方式和所有运行规则，我们只要知道它遵循了哪种“设计规范”就行。在设计立场中，用于解释世界的就是关于某物是如何被设计的。例如，一个闹钟的功能就是被设计来发出闹铃，你不需要知道它的硬件组成和工作方式。但有时候行为系统极端复杂，它所展现出来的某种设计规范并非我们人为提前设定的。我们可以将这个无法分辨的设计规范视为此行为系统的内部变量，然后对其进行整体的解释和预测。

那么我们观测的立场会从“设计立场”提升到“意向立场”。基于意向立场，我们将行为系统视为一个有行为目的的整体，以此来解释和预测它的行为。

总结来说，对于非常简单的事物，我们会从“物理立场”研究其遵循的物理定律。对于比较复杂的事物，我们常从“设计立场”关注其设计规范。而对于极其复杂的事物，我们会使用“意向立场”，揣测其行为目的。

对于不同的事物，人类会自然而然地切换不同的立场去进行观测。例如我们在看待“ChatGPT会不会聊天”时，基于这三种立场，会得到不同的三种结论。如果我们采取物理立场，那么ChatGPT就是一个运行在不停通电断电的电子元件上的模型，不停地读写着0和1的数据。当我们上升到设计立场，那么ChatGPT就是在机械地执行着人们写好的程序，所有程序都遵循“给用户一个满意的答案”这样的一个设计规范。而当我们采取意向立场，将“给用户一个满意的答案”视为ChatGPT这个行动系统的一个内部的行为目的，为达成这个行为目的它会自己选择我们外人无法分辨的设计规范，那么此时的ChatGPT就是会聊天的，它好像有自己的想法。此时，一旦我们使用“意向立场”去观测一个行为系统，那么智能就涌现出来了。

智能往往来源于信息差，而如果你能获得足够多的信息，那么这个行为系统对你来说就不存在智能。因此这一过程也可以反向理解为，很多AI研究员们无法解释和预测这个过程，大语言模型出现了AI研究员理解不了的信息差，他们被迫转向了意向立场，于是GPT模型在这群AI研究员们看来就出现了智能。而一旦他们获知了大模型的“设计规范”，知道了大模型如何从海量数据中发掘隐含的规律和模式并将其外部化。那么立刻，观测从“意向立场”下降到“设计立场”，智能又消失了。

在新的科学革命到来之前，人们会习惯把所有不理解的东西都视为是有思想、有灵魂的，这其实就是不自觉地站在了意向立场的角度去观测某系统，视系统拥有某些行为目的并内化到整个复杂的系统里。我们判断一个系统是否出现了“涌现”的现象，终究是由我们的观测立场和知识水平决定的。

文字：翁猛生

排版：翁猛生