让ChatGPT更有逻辑的一种可能

好人_haoren 2023-03-12 发布于北京

展开全文

您想知道的人工智能干货，第一时间送达

作者 | 高佳

创意 | 李志飞

理性的思维阻隔了人与宇宙的亲近。

——约翰·纳什

搜索引擎和ChatGPT

「水火不容」的两条路径

微软将ChatGPT整合进Bing，Google急推「聊天机器人搜索」，仿佛世界铺展了对搜索引擎下个十年的想象力。企图让搜索引擎丝滑交流，或让ChatGPT精准有逻辑。

但其实，两者只能在表层做「备胎模块」式的融合，因为本质上他们是水火不容的两条路径。

搜索引擎是一个包含众多模块的庞大系统，以对问题的精准回答为心中最高法则。他像一个一丝不苟的文字秘书，认真「理解」你的问题，迅速「检索」文件档案，条分缕析地「执行」回答。他对以上三个步骤烂熟于心，兢兢业业，以致常常「一板一眼」，顾不上如沐春风的对话体验。

而ChatGPT本质是一个生成式的语言模型，更像一个与世隔绝的疯子或天才，只是喃喃自语地倾囊他的所知，或创作出很多幻想或令人惊讶的东西。他好读书，却不求甚解，不知其然，也不知其所以然。只管谈笑风生，“对答”如流。

搜索引擎和ChatGPT本质上完全不同，一个是大规模搜索，是「三步走」的执行系统；一个是生成式对话，是基于神经网络「一气呵成」的工具模块。

而一旦试着把部分Query（查询）分类到ChatGPT下，就会进入先分类、再打标签、再查询数据库生成结果的老套路，给出的答案一定是生硬的，就像我们在用的语音助手。

想拥有ChatGPT纵古论今的「通用性」，就不能指望他像以前对话系统那样完成具象任务。反之，要想搜索引擎缜密精准，就不能要求他还提供情绪价值。

他们一个言之有序，团结紧张；一个发散诙谐，生动活泼。一个是死理性派的理科生，一个是相对感性的文科生。

一个基于「检索」，力求追本溯源，一个擅长「创造」，无中生有不可追溯。两者从底层技术路线上迥然不同，互为根本性的矛盾和补充。

更抽象来说，这是符号主义和联结主义的水火不容。

那么能否将两者从底层结合起来，既谈古说今妙语横生，又能走进现实，会推理、懂逻辑？

就像有着根本性矛盾的量子力学和广义相对论，本质上是否存在一个大统一理论，让时时刻刻都在相互作用的两者，能在一种完美高效的框架下实现运行？

是否可以有一种思路？比如融合。

符号主义和联结主义的融合

符号主义和联结主义的水火不容，像经典力学的确定性，与量子力学的不确定性之间的水火不容。

一直以来我们认为「符号主义」擅长解决精确问题，是再现人类强逻辑的智能的，比如如何查询数据库，如何逻辑分析问题，如何反思已有认知，推理一个结论，创造一个工具等。

而「联结主义」本质是一个统计模型，更擅长解决模糊性问题，以及从样本中发现平滑规律，比如通过足够多的人类对话找到下一句该说什么的规律；通过描述性的文字找到对应的图像生成规律。

就像「无限猴子」定理所表明，如果把一只假想的猴子放在打字机前无限长的时间，猴子最终会写出莎士比亚的十四行诗。而获得这些能力，可以通过更大的模型，更多优质的数据，不断强化学习并循环增强的方式，比如ChatGPT。

如果把符号主义比喻成「登山」，把联结主义比喻成「游泳」，
那么会发现，以符号「登山」的能力去「游泳」是困难的，
同样「游泳」的能力去「登山」也是艰难的。
这两者在底层上是非常难于有机结合的，但两者往往又显示着隐隐的结合潜力。

事实上，符号主义和联结主义正是AI的两个极端流派，两者长达数十年的纷争，贯穿着整个NLP发展史，甚至横亘人工智能长达半个多世纪的探索。

早在1956年「人工智能」概念诞生的著名会议——达特茅斯会议之前，有一个小型的学习机讨论会，会上神经网络鼻祖之一的皮茨做了一个有趣的总结：“一派人企图模拟神经系统，一派人企图模拟心智，但最终大家的目的一致。”

这句目光毒辣的话，冥冥之中预示了之后数十年AI研究的符号主义和联结主义两条路线之争。

如同今天，ChatGPT以「联结主义」为本质结构，以「一步式」生成为表达流程，表达流畅但逻辑很差，如果没有正确「理解」这一环，其输出结果并不精准完备，而这正是联结主义最不擅长的。这样的结构，在一些情感聊天类问题上可以接受，但是在需要逻辑严密的问题上则不能委以重任。想让ChatGPT拥有严密复杂的逻辑推理能力，仅仅依靠在大模型现有的方向上进行优化，从ChatGPT的本质结构上决定了难度极大。

的确，更好的一种可能性是融合，而非简单的混合。即融合符号主义和联结主义来消弭彼此的缺点，结合彼此的优点。

而实际上，过去长达数十年的证明，联结主义和符号主义，一直在不断地拓宽边界、走向融合。

这是一个从抽象到具体，从具体到抽象的过程。履程艰难却又历历在目。

比如，在我们人类身上，就兼有符号和联结两个技术路径的特征，如对知识的学习和举一反三等，就是以符号主义为基础的系统再现；如对文学艺术的即刻感知，是网络联结的表现。

人类历史的数学也是一种符号学视角的书写，以及迄今我们衡量文明的高度都是用符号所「堆砌」的高度而造就的。然而，似乎上个世纪的后现代迷宫揭示了这样一个规律：更多的符号增殖已无法给我们带来更多相对应的文明成果拓展了。

那是否可以认为，当一个模型学习到足量的知识，使得模型抽象出的「知识体系」已经抵达一定的高度边界时，就需要另一维度的联结主义有效利用更多的信息，以拥有更好的表现。比如ChatGPT今天的爆发式能力，还是得益于语言大数据的「大」。

至今人类科学发展了数千年，很多领域都进入了高度理论化的阶段。当人类抽象的知识体系已经能够覆盖全部知识集的时候，这种建立在演绎基础上的文明也同样体现出了脆弱的一面，反而是符号主义能够更充分地利用整个体系化的知识，实现更好的结果。

而符号主义，从知识图谱到语言模型，从只能解决极其抽象的纯符号运算，到垂直领域能够媲美专家，在客服、车载等场景与人类顺畅对话，其边界也一直在不断拓展。

历史可见，更严谨的符号主义，与更泛用的联结主义，将两者都纳入武器库时，往往能更好地解决单边难以应对的问题。

进而，我们猜想，如果把全部的数学公式或理论模型塞给GPT，会出现像纳什一样的界于疯子和天才之间的行为吗？

比如，对一个有相当知识背景和能力来读懂题目的文科生，但苦于数理逻辑较差而不擅计算；而另一位精于运算的理科生，但受限于语言而难以理解复杂的题目文本。两者融合，会碰撞出怎样的光火？

GPT提供了知识，而大量的数学公式提供了数理思维，一次成功的“跨界”，或许可以迎来新的突破。如果把ChatGPT与结构化数据库相结合呢？

《西部世界》里的二分心智理论，在福特的棋盘上，当不断学习的海量数据，与背后在 key moments 弹奏的「神之声音」融汇交织，训练出朦胧觉醒的AI的时候，那注入灵魂的临门一脚会是什么？

事实上，对于ChatGPT，真正冲击我们感官的正是他在部分任务中突破了符号主义和联结主义的边界的临门一脚——他具有了一定的逻辑推理能力。

也就是说，本质结构是联结主义的GPT，当模型大到一定程度时，他完成了符号主义的一些任务。

那么是否意味着ChatGPT本身可视为符号主义和联结主义走向交界点的一个例子？

如果不是，ChatGPT为何又能突破原有大模型的极限呢？

ChatGPT「涌现」的产生

从「炼金术」到「科学」，从朴素的直觉到“理论与实践”相结合。

首先，理解ChatGPT拥有的能力，我们要先追溯ChatGPT的能力起源，一视窥探ChatGPT突破边界背后的原因。

ChatGPT是基于两年前那位让我们激动地以为“无所不能”的GPT-3的进化。

ChatGPT将海量的数据，与表达能力很强的Transformer模型结合，从而对自然语言进行了一次非常深度的建模。让ChatGPT拥有如此震惊于世的表达能力，可以调侃或拒绝不怀好意的提问，甚至有了一定的简单推理能力。

其背后长达两年的努力，主要基于人类反馈的强化学习（RLHF）、指令微调（Instruction Tuning）、代码训练（Codex）这三点。

第一点，OpenAI引入了「人类监督员」，专门“教”AI如何更好地回答人类问题。AI的回答符合人类评价标准时，就给AI打高分，否则就给AI打低分；对于低分的问题，还认真地给出更符合人类表达的示范答案。这使得AI不断按照人类价值观优化数据和参数，也让他逐渐拥有了越来越符合人类语境的标准回答。（翔实公正的回应、拒绝不当的问题，拒绝知识以外的回答）

第二点，指令微调，可以想像让ChatGPT去学武术，在传统武术班一招一式的学习，只会防守「正规」套路的进攻，而一旦对手用了不讲武德的「野路子」就会束手无策。于是ChatGPT经过一段时间师从武术大师的秘籍修习，与众多不同的对手以不同的套路交手，以获得更高阶的武术顿悟，激发了对原本没学过的拳法和脚法的理解，便自然地学会如何见招拆招了。但这不会为ChatGPT注入新的能力，只会更好地「激发」其已有的能力。

第三点，ChatGPT用代码训练过，这让ChatGPT有了一定程度的推理能力，就像直觉来说，一个小孩学会编程后，可能“说话”更有逻辑性。同时，ChatGPT还利用思维链 (chain-of-thought) 加强了复杂推理的能力，思维链是代码训练的一个神奇的副产物，也被认为是解锁「涌现」能力的可能性关键。

以此两年磨砺，惊喜的一幕出现了，ChatGPT比GPT-3的性能又提高了一个层次，让人们再次看到「涌现」的力量。「如果一种能力不存在于较小的模型中，而存在于较大的模型中，那么这种能力就是涌现出来」，物理学家菲利普·安德森最早提到了语言模型的涌现能力，即「多者异也」。

事实上，「涌现」在复杂系统里无处不在，如蚁群、互联网、人类社会文明等，也许大脑的意识和智能也是一种涌现行为。而复杂系统最典型的特征就是古希腊哲学家亚里士多德所说：「整体大于部分之和」。

这是一种基于「混沌」的开荒之际，就像5亿年前，诞生于地球生命史早期的那场寒武纪生命大爆发，连达尔文也无从解释的「生物进化」；就像大脑每一个没有意识的神经细胞，当他们相互联结时，便形成了一种令人惊讶的有意识的强大网络。无从解释，但他已存在于世界的蔓延，并历代追演。

似乎朴素的直觉总是先于科学证明而存在。我们只是从现象去推能力，而不是从原理推导现象。

对于今天的ChatGPT，把大模型的奇异能力简单归结成一种涌现行为对实践指导意义不大。同时，指望一个单纯算法的规模到一定程度就能涌现出人类的整体智能，也并不是一个严谨的科学态度。

回到最初的问题，ChatGPT是符号主义和联结主义走向交界点的一个例子吗？

至少从背后原理来看，ChatGPT和GPT-3都还不是根本性的突破。

ChatGPT和GPT-3类似人类的输出和惊人的通用性只是技术的结果，而不是真正的聪明。无论是GPT-3还是ChatGPT，仍然会犯一些可笑的错误，这也是这一类方法难以避免的弊端，因为它本质上只是通过概率最大化不断生成数据而已，把这个能力发挥到一个非常高的水准线，甚至体现出了它有一定逻辑能力和求解能力的假象，而不是通过逻辑推理来生成回复。

图灵奖得主、Meta首席人工智能科学家LeCun也认为，「与其说ChatGPT是一个科学突破，不如说他是一个像样的工程实例。」

那么，既然我们认为复杂系统的「涌现」是炼金术，是否能把炼金术变成科学？

是否有可靠的研究成果去分析这些能力到底是怎么实现的，比如模型多大才会出现某种涌现行为？为什么会出现？如何系统性地让他出现？

从ChatGPT的原理可以看出，ChatGPT至少传递的一个很好的信号是，我们的确可以利用类似人类「敲黑板划重点」、「强化学习」等更多的思路提升「模型能力」。

那么历经逐层递进的「涌现」后，ChatGPT的能力表现是否会抵达一个边界？边界又在哪里？

从上面的原理上可以看到，这样生成的大模型是以人类标注样本作为表现极限的。当穷尽人类的知识数据，在GPT不会产生新的知识的前提下，会抵达一个无法超越的边界，当我们触及规模极限，接近收益递减点时，还需要新的改进的范式。

而S曲线阶梯式上升正是科技发展的规律。

当S曲线再一次从拐点来到平滑的边界，GPT发展是否会有极致，下一个突破点会在哪里？

如果GPT以AGI作为最终目标，那么GPT真的会通向AGI吗？他会以多快的速率向我们走来？AGI会有极限吗？

距AGI还有多远

五年前，在与朋友的一次登山徒步中，Sam Altman想通了一件事——他意识到，人类可能并不是独一无二的了。「虽然有些东西仍会专属于人类——创造力、稍纵即逝的灵感、细腻的感情，但可能一二十年内就会出现可以复制我们大脑的设备......融合已经开始——而融合也是最好的方案。任何其他版本都会有冲突：或者是我们奴役人工智能，或者人工智能奴役我们。」

1950年，英国科学家图灵在一篇划时代的论文中预言，人类有可能创造出具有真正智能的机器。那篇论文所想象的真正智能的机器是什么样？“如果一台机器能够与人类展开对话，而不能被辨别出其机器身份，那么称这台机器具有智能。”即著名的「图灵测试」。

这是半个多世纪以前，科学家对智能机器的想象和期待。

而今天，OpenAI也描述了，他眼中AGI的样子：有一个与任务无关的LLM，用来从海量数据中学习各种知识。这个LLM以「生成一切」的方式，来解决各种各样的实际问题，而且它应该能听懂人类的命令，以便于人类使用。

人类对AGI的期待，从来没有停止。

而OpenAI对LLM发展理念的理解，正蕴藏其中，同时也几乎是大家的共识——「构建一个与任务无关的LLM，让它从海量数据中学习各种知识」。体现OpenAI眼光的后半部分，正是他始终践行的「把理解语言这样一个复杂的事情等价于word prediction这个简单的事情」，以此作为坚定不移的长期主义与理想主义信念。

曾经看到还在Y Combinator做继任总裁的Sam Altman，说过一句很动人的话：“十年很短，一天很长。”

后来他加入OpenAI，宿命般地将这一句精神，践行在OpenAI每日的精进里，用一串串代码，书写着AI的进化和人类的历史。

ChatGPT的恰时出现，印证了一种精神信仰的重要性，也证明了到现在这个时期，我们去追求AGI是至少有可行性的，而现在或是抛开“领域学科”这个思维束缚的时候了。

就在普通人看不到的代码深海里，在每一条数据、每一分算力的功耗里，智能的进化从未停止，而且越来越快。

「通用算法主义」vs 「效法人脑主义」

「让人的归于人，让宇宙的归于宇宙。」

“人类的智能模式是通用智能，这种智能模式移植到机器就是通用人工智能。”

在很长一段历史周期以来，人类以复刻人类智能的方式来建立机器智能，就像人类以人类的模式创造上帝。

现代意义上的AI始于古典哲学家用符号系统处理的观点解释人类思考过程的尝试。20世纪40年代，可编程数字计算机的发明，使一批科学家开始严肃地探讨构造一个「类脑智能」的可能性。

之后也有很多流派试图再现人类智能机制，但是这些流派都没有取得太大的成果。以至于DeepMind的杰出科学家、强化学习的创始人Rich Sutton在其「苦涩的教训」一文中强烈表达了观点：

「从过去70年的AI研究中可以得出的最大教训是：为了寻求在短期内的作为，研究人员更倾向于利用人类在这个领域的经验和知识，而从长远来看，利用可扩展的一般计算方法才是最终是有效的。」

到底该以什么姿势追求AGI，效法人类，还是归于算法？