大力出奇迹的背后是什么？

昵称21405352 2024-04-16 发布于湖南

展开全文

作者｜李国杰中国科学院计算技术研究所

本文转载于《中国计算机学会通讯》

人工智能已经取得非凡的突破，国际称为“phenomenal breakthrough”。phenomenal 本身有“非凡”的意思，可能是最早翻译有关文章的学者英文水平不高，杜撰了“现象级突破”这个吸引眼球的奇怪中文，通过网络传播就被大家接受了。现象应该比本质低一个层次，但是“现象级”又被说成是最大的突破，历史上只有几次，两者相矛盾。这是语言传播中将错就错的一个案例。其实就是一个了不起的突破，一个非凡的突破。

我的看法是，生成式人工智能（AIGC）大大加速了人类向智能时代迈进的步伐，知识自动化的普及已成为第四次工业革命的标志，机器涌现理解能力对人类社会的影响绝不可低估。人工智能现在到底发展到什么水平？不同人有不同的看法。有些“预言家”和媒体人士认为“奇点”临近，人类已危在旦夕。但严肃的人工智能学者大多比较冷静，认为人工智能仍处在伽利略（开普勒）时代或牛顿时代前夜

总的来讲，对人工智能的看法应该一分为二，也就是“两点论：一是人工智能技术在应用层面已取得前所未有的重大突破，对经济和社会发展将产生深远的影响；二是它在科学上尚未成熟，还需要做深入的基础研究。

这一波人工智能令人既欣喜又困惑。大模型的开发与应用成为人工智能发展的重要趋势，这导致算力消耗从占全球能源的3%，增长到近几年的10%，预计到2030年可能会达到30%甚至更高。如果按算力4个月翻一番的速度增长，10年内算力要增长十亿倍。急速增长的算力需求对现有能源体系提出了巨大挑战。核聚变能源和量子计算技术普及以前难以满足这种爆炸式的需求。目前我们还无法确定大语言模型（LLM）是否就是人工智能发展的终极方向，有不少学者对此仍持保留态度。我这个报告尝试从计算模式演变的角度探讨“大力出奇迹”背后的原因，并提出计算机科学领域的专家们需要关注的研究方向。

OpenAI 首席执行官山姆 · 奥特曼也表示，人工智能将消耗比人们预期更多的电力，未来的发展需要能源突破。图源：pixabay

我从Richard Sutton 2019年写的一篇文章谈起，这是OpenAI员工必读的一篇博客文章。Sutton是 DeepMind 公司的杰出研究科学家，被誉为“强化学习教父”。他在这篇文章中做出一个重要结论：“苦涩的教训：人工智能研究人员一直试图将人类已知的知识构建到他们的智能体中，长远来看，这种方法停滞不前，唯一重要的是利用计算。突破性进展最终是通过相反方法，基于搜索和学习实现的。这种成功带有苦涩，因为不是以人为中心的方法，而是依靠机器学习。”

这个教训包含两层含义：一是传统上我们强调知识的重要性，认为“知识就是力量”，当然知识依然是一种力量，但数据和算力同样是强大的力量，它们结合起来能够产生新的知识；二是知识不一定由人创造，有可能是由机器生成，而人类尚不了解，这就是令人感到苦涩的原因。

理查德·萨顿（Richard Sutton），阿尔伯塔大学计算机学教授。

GPT-4等智能技术，与20年前的人工神经网络理论本质上并无差异，其原理可追溯至1943年麦卡洛克和皮茨提出了神经元计算模型。GPT4和Sora等智能生成技术并没有提出新的人工智能原理，OpenAI和谷歌等公司主要起到工程放大作用。当前流行的一句话是“规模即所需”（scale is all you need），我个人认为这种说法并不是严格的科学判断，只能认为是一种“假设”或“经验规律”，甚至是一种“信仰”或者说“豪赌”。

以OpenAI为代表的学者们归纳出了几条“公理”，强调Scale（规模）是制胜法宝。这些公理不像欧几里得几何公理那样久经考验，但已有几十年的研究历史证明是对的,因此可以看作“假设性的公理”。第一条公理就是“苦涩的教训”，人工智能领域所有的各种各样的技术，都比不过算力支持的通用算法，所以应当认为，强大算力支持的通用算法（包含模型和数据）才是人工智能真正进步的方向；第二条公理是规模，就是说一旦选择了良好且通用的数据标注，良好且通用的算法，就能够找到一套通用的规律，数据越多，模型越大，效果就越好，而且这个规律在训练之前就可以预知它的效果；第三条公理是涌现，随着规模扩大、数据加大，大模型一定会涌现出以前没有的能力，这个能力所有人都可以看到。

公理1是说，大模型，大算力，大数据是AGI的必要条件；公理2 是说，大规模是AGI的充分条件，大就是好；公理3是检验公理。OpenAI等成功公司自己总结的经验是：如果你能用scale解决的问题，就不要用新的算法解决。新算法最大价值是让它怎么更好的scale。这三条公理是用大白话描述的经验总结，还有待今后的实践验证，而且表达上也不像数学公理那么严谨，所以目前还只能认为是一种信仰。

我个人认为，人工智能的突破是得益于大数据、大模型和大算力，这三个“大”缺一不可，不能只依靠其中一个。单纯的算力不是万能药。就说围棋，如果围棋棋盘扩大到20×20，暴力搜索所需的算力需要提高10的18次方倍，即从3的361次方提高到3的400次方，光靠算力无济于事。

图源：pixabay

为什么大模型扩大规模就能出奇迹？其背后的原因可能涉及计算模型和复杂系统，需要从计算复杂性的角度去思考。计算机科学中讨论的“问题”,是指精确定义的包括很多问题实例（instance）的一个问题类，比如旅行推销员问题（TSP），布尔表达式的可满足性问题（SAT）等等。

一个问题的计算复杂性是计算机科学中少有的不变量，如同质量守恒，能量守恒一样重要。问题的计算复杂性不随算法的改变而改变。但这种不变性是针对同一个计算模型而言的，目前我们大多是在图灵模型下讨论计算复杂性。在不同的计算模型下，同一问题的计算复杂性可能不一样。最典型的例子是在量子计算模型下解决大数分解问题，Shor算法的计算复杂性是多项式级别，而在经典的图灵模型下是指数复杂性。平时大家讲不同计算模型的等价性是对可计算性而言，不同模型下计算复杂性的比较是我们关心的问题，但这样的研究成果不多。

自然语言理解、模式识别等很多人工智能问题，以前是公认的困难问题，也有人说人工智能问题大多数是具有指数复杂性的NP困难问题（通俗地讲，NP困难问题是指问题规模较大时计算机难以解决的问题），这只是一种模糊笼统的说法，没有给出严格的定义和证明。因为所谓人工智能要解决的问题，大多是指的一类应用，如人脸识别，机器翻译等。人工智能问题的计算复杂性究竟有多高，其实是讲不清楚的。一篇文章从英文翻译到中文，什么叫做对了，什么叫完成任务，并没有一个严格定义。这些问题用现有的计算复杂性理论没有办法讨论，因为讨论计算复杂性一定要讲清楚输入、输出是什么，要解决的问题必须有严格的定义。

人脸识别与机器翻译概念图源：pixabay

有人说，大模型解决人工智能问题效率高就是因为这种模糊性，不求最优解或精确解。但计算复杂性理论告诉我们，有些问题，如旅行推销员问题（TSP问题），用神经网络求近似解，仍然具有指数复杂性。而中国科学院计算所用机器学习方法全自动设计CPU芯片，正确率要求高达（99.99999999999%，13个9），也能在5个小时内实现。可见仅仅是求近似解，并不是高效率的必要条件。

现在用大模型做机器学习，不管是文字、图像、视频生成，还是图像、语音识别，机器翻译、气象预报等等，实际效果比过去的方法好很多。究竟是什么原因？与逻辑推理和过去的专家系统等人工智能方法，我们究竟改变了什么？我的看法是改变了计算模型（机器学习也是一种计算模型）。

计算模型有高低不同的许多层次，最高层次的计算模型也有很多种，除了图灵模型外，还有λ演算，模拟计算（连续量计算）、量子计算等等，现在大家在做的机器学习，是数据驱动的图灵计算，不是经典的图灵计算。所谓“图灵机”不是指一台机器，而是指一个“过程”，图灵模型定义了什么过程是计算。图灵机限制很多，第一，所有输入的信息必须是现成的，计算之前必须告诉它要输入什么；第二，计算过程中与输入源不能交互，第三，机器必须按照有限的确定性规则运行，在有限的时间内结束等。

图灵计算是严格计算机科学意义下的计算，输入输出都是确定的，在不同的机器上计算，结果一样，今天算与明天算结果也一样，所以它解决问题的能力是恒定的。但现有的机器学习系统是与外界交互的，计算能力在到达饱和之前与日俱增。下面的图1 参考了王培2023年8月24日在科普中国·星空讲坛的报告，其中黑线表示人们期望的具身AI系统，比现在机器学习系统具有更强的适应性，直接与现实物理世界交互，能学到现实世界的知识和规律，包括人类还不掌握的知识。红线是某些学者预测的能力指数级增长的超人智能，是否存在有待验证。“计算”的内涵已经发生变化,网络上永不停机的交互式信息服务和机器学习等已经不是严格意义的图灵计算，但仍然使用同一术语，所以引起很多混淆和争议。

冯·诺伊曼最早认识到神经元模型不同于图灵机模型，他指出：“图灵机和神经网络模型分别代表了一种重要的研究方式：组合方法和整体方法。McCulloch & Pitts 对底层的零件作了公理化定义，可以得到非常复杂的组合结构；图灵定义了自动机的功能，并没有涉及到具体的零件。”

冯·诺伊曼还做出预言：“信息理论包括两大块：严格的信息论和概率的信息论。以概率统计为基础的信息理论大概对于现代计算机设计更加重要。”

从目前大模型取得的成功来看，冯·诺伊曼的预言已经变成现实。对自动机理论而言，神经元模型可能比图灵模型更有价值。神经网络不是按照确定的算法实现图灵计算，其主要功能是“猜测加验证”。猜测和计算是两个不同的概念，基于神经网络的机器更合适的名称是“猜测机”，而不是“计算机”。大模型的本质是基于概率统计的不确定计算，其解决复杂问题的效率大大高于图灵模型。

神经元模型与图灵机模型几乎同时提出，已经竞争了几十年。很长时间内图灵机模型一直占上风，但Hinton 等教授从未放弃，直到2012年在ImageNet的图像识别竞赛中一鸣惊人，基于神经元网络的深度学习才红火起来。图灵机计算模型和神经网络计算模型各有优势和不足，在不同的领域内表现各异，两者不是取代关系，而是需要取长补短，相互配合。

值得指出的是，1948 年，艾伦・图灵写了一篇题为《智能机器》(Intelligent Machinery) 的论文，这篇论文提出了“无组织机器”的概念，实际上是早期的随机连接神经网络模型，几乎描述了目前人工智能联结主义的基本原理，包括遗传算法和强化学习。由于没有得到他的老板的认可，一直没有发表，到2004年才被发现。这篇文章表明，图灵本人也看好神经元计算模型。我想，如果学术界早看到这篇论文，今天的计算机世界可能是另一幅模样。

人工智能的基本假设是丘奇-图灵论题（Church-Turing thesis），即“认知等价于计算”。1992年我在《模式识别与人工智能》期刊上发表的“人工智能的计算复杂性研究”一文中指出：“人工智能要走出玩小孩游戏(toy problem ) 的圈子，只有两条出路，要么承认Church-Turing假设，以现有计算机能力为基础(与图灵机能力只差多项式倍),寻找合适的问题描述，发现人工智能中的易解问题；要么不承认Church-Turing假设，寻求新的“计算”模型，使得对人脑易解的问题在新的模型中也易解。”现在来看，当时的判断经得起时间的考验，寻找合适的问题描述和寻求新的“计算”模型，仍然是人工智能界的主要任务。

艾伦・图灵

有人反驳我的观点说，现在计算机中执行的每一步都是图灵计算，我们是把其他的计算模型都“映射”到图灵机，用图灵机模拟其他模型。这可能涉及整体和局部的辩证关系。机器学习的整个过程像是一条弯弯曲曲的曲线，曲线的每一小段微分都可看作直线。也就是说，目前数字计算机的每一步具体操作是按照图灵计算做的，但机器学习整个过程合起来已经不是图灵计算。这里可能隐含许多深层次的奥妙。在人工智能领域，我们需要对计算复杂性进行全新的研究，因为许多新现象的出现无法用旧有的理论来解释。目前存在一个问题：专注于复杂性研究的学者往往不涉足人工智能领域，而从事人工智能研究的学者通常对复杂性研究不感兴趣。我相信这两个领域结合起来会有原理性的突破。

冯·诺伊曼去世后整理发表的著作“自复制自动机理论”指出：自动机理论的核心概念在于复杂性，超复杂的系统会涌现出新的原理。他提出了一个重要的概念：复杂度阈值。突破了复杂度阈值的系统，就会由于在数据层的扩散和变异作用而不断进化，可以做很困难的事情。现在的神经网络模型有数千亿个参数，可能已接近能处理困难问题的复杂度阈值点。复杂度阈值是一个十分深奥的科学问题，还没有引起学术界高度重视。复杂度阈值并不等于模型的规模，需要深入研究。

对待大模型，企业界有不同的态度。笼统地讲，可以分成“榔头派”和“钉子派”。“榔头派”是技术信仰派，信仰AGI、信仰 scale law，追求模型的通用性，认为大模型就是个“榔头”，什么钉子都可以敲。“钉子派”认为先要找到钉子，榔头才能起作用，更相信可以变现的商业场景。我认为榔头和钉子都很重要，两者要结合。人工智能还处在探索阶段，要鼓励技术途径的多样性。大模型是实践证明的可行途径之一，不能认为是碰运气，要争取在大模型技术上迎头赶上，有所突破。也要结合中国国情，走出自己的人工智能发展之路。人工智能技术应当更多地用在材料、医疗、工业控制等领域，产生实实在在的经济效益。

人工智能技术在医疗领域的应用图源：网易科技

当我们探索大模型时，可能会发现关于智力本质的新原理，就像物理学家在20世纪发现关于物理世界的新原理一样。量子力学被发现时是非常违反直觉的，当智能的基本原理被发现时，它们可能同样违反直觉。如果关于大模型的解释一讲就懂，可能还没有找到真正的原因。

2022年，科技公司创造了32个重要的机器学习模型，而学术界只产生了3个，这与2014年形成了明显的反差，当时大部分AI突破都来自高校。近年来约70%拥有AI博士学位的人才进入私营公司就业，20年前这个比例只有21%。头部科技公司对AI领域的“垄断”愈发严重，学术界面临前所未有的挑战。技术发展方向完全被企业家和投资人控制不一定符合全人类的共同利益，科学家在引领科技良性发展中要发挥应有的作用。