豆瓣9.4,解码罗素教授第4版《人工智能：现代方法》给未来的启示！

mrjiangkai 2023-10-12 发布于上海

展开全文

《人工智能：现代方法》一书自1995年第1版问世至今，已有28年，目前更新到第4版。这本书不仅是经典的人工智能导论教材，被全球130多个国家或地区的1500多所院校用于教学，还被众多人工智能行业的从业者誉为人工智能领域的“大百科全书”，是从业者的权威参考书。每当技术有新进展，作者都会对这本书修订，这本书最新的第 4 版几乎涵盖了人工智能从业者需要了解的人工智能领域的所有基本内容，反映了人工智能领域的最新进展。

这次，我们非常荣幸地请到了多位AI领域的大咖，共同解码“大模型时代, 罗素教授经典《人工智能: 现代方法》给未来的启示!”

▼▼▼

大咖直播预告

9月26日晚19:30，异步社区诚邀罗素教授及各位AI领域大咖共享直播盛宴：大模型时代, 罗素教授经典《人工智能: 现代方法》给未来的启示!

敬请期待！

AI领域是目前最热门的新赛道，而本书作者斯图尔特·罗素（Stuart Russell）与彼得·诺维格（Peter Norvig）思读者之所想，写读者之所切。他们将人工智能从业者所需要了解的人工智能领域的所有基本内容，以及人工智能领域的最新进展都在《人工智能：现代方法（第4版）》中毫无保留地展现出来。今天，结合最近爆火的ChatGPT，小异将这部著作的精彩之处整理并分享出来，希望能对大家有所启发。

ChatGPT力量的源泉

在本书的第二章，作者就提到，其实ChatGPT如此过人是由于其采用了一种名为Transformer的架构，而这也是ChatGPT最核心的技术。

Transformer全称Generative Pre-trained Transformer（也是GPT名字的由来）系列是OpenAI发布的预训练语言模型，这种模型最大的特点，就是可以减少甚至消除人工监督和标记。

那这模型是怎么做到这一点的呢？

首先，海量的数据训练，对模型能力的提升总是立竿见影的。

但倘若只止步于此，那它和之前的循环神经网络也不会有太大不同，真正令Transformer拉开差距的，是它能够同时并行进行数据计算和模型训练的能力。

之前的循环神经网络，虽然能更好地处理有先后顺序的数据（比如语言），但在处理较长序列的数据，例如长文章、书籍时，往往就拉胯了。

因必须按顺序处理数据，这就无法同时并行训练，于是训练时间就被拉得很长，时间一长，模型就会不稳定，就会发生梯度消失之类的情况。

所谓梯度消失，指的是在神经网络中，当前面隐藏层的学习速率低于后面隐藏层的学习速率，即随着隐藏层数目的增加，分类准确率反而下降了。

而与之相比，Transformer不仅能够同时并行进行数据计算和模型训练，而且还克服了传统的神经网络技术用浅层的预训练网络来捕捉单词，并无法解决一词多义等问题缺陷。

简单地说，就是Transformer让ChatGPT学会举一反三了！这使得它的学习效率非常高。

字字珠玑，带你了解GPT的独特机理

除了核心架构Transformer外，书中还对ChatGPT背后运转的独特机理进行了揭示。

与BERT模型类似，ChatGPT或GPT-3.5都是根据输入语句，根据语言/语料概率来自动生成回答的每一个字（词语）。从数学或从机器学习的角度来看，语言模型是对词语序列的概率相关性分布的建模，即利用已经说过的语句（语句可以视为数学中的向量）作为输入条件，预测下一个时刻不同语句甚至语言集合出现的概率分布。

ChatGPT 使用来自人类反馈的强化学习进行训练，这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中，人类训练者扮演着用户和人工智能助手的角色，并通过近端策略优化算法进行微调。

由于ChatGPT更强的性能和海量参数，它包含了更多的主题的数据，能够处理更多小众主题。ChatGPT现在可以进一步处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。

想了解AI学习的奥秘？答案就在这里

书中还提到，ChatGPT之所以进化得如此迅速，主要归功于这么几个学习算法：

第一阶段：训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图，人类首先得用“填鸭教育”的方式，让 GPT-3.5模型知道什么是“标准答案”。

具体做法是：先在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5模型。

如果这一阶段GPT 3.5被训练得不错，人类就会对其鼓鼓掌，并表示：这孩子真聪明，现在可以做些开放式命题了。

第二阶段：训练奖励模型（Reward Mode，RM）

这个阶段的主要是通过人工标注训练数据（约33K个数据），来训练回报模型。在数据集中随机抽取问题，使用第一阶段生成的模型

只是到了这时，问题不再有“标准答案”，而是对于每个问题，生成多个不同的回答。

对于这些没有标准答案的“开放式问题”，人类标注者会对这些结果综合考虑给出排名顺序。

接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对。RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段：

采用PPO（Proximal Policy Optimization，近端策略优化）强化学习来优化策略。

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，你可以把这个过程理解为从开卷考试到闭卷考试的转变。

不但不让“翻书”了，而且问题的随机性也大大增加。

通过在第二阶段训练好的奖励模型数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

一份AI的藏宝图，等你来打开

除了上述内容外，小异发现书中还介绍了很多关于ChatGPT的技术点，其中就包括但不限于：

▮ 卷积网络、循环神经网络

▮ 机器学习（数据科学）

▮ 深度学习（人工神经网络）

▮ 语言模型（词向量、语料库）

▮ 人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）

▮ 自监督学习

▮ GAN生成式对抗网络

甚至，怀有人文精神的作者，还在本书的第27章和第28章中，专门用两个章节的内容，来探讨了人工智能的哲学、伦理和安全性的问题。

可以说，这是一本既有技术，又有温度的巨著。

在这个AI技术日新月异的当下，ChatGPT背后强大学习算法，无疑代表了人工智能技术最闪亮的结晶，而本书正是对人工智能发展过程中，这些结晶的总结与分析。

从最初的图灵测试，一直到今天的强化学习算法，书中涵盖了人工智能发展过程中所涉及的数学、心理学、神经科学、计算机科学等多方面内容。

其内容之丰富，就像一张隐藏了无数宝藏的藏宝图，在眼前徐徐展开。

在这个瞬息万变的智能时代，倘若我们能对书中的理论、知识细细钻研，那么必将会使自己在即将到来的科技革命前获得更大优势。

▼▼▼

大咖直播预告

9月26日晚19:30，异步社区诚邀各位大咖共享直播盛宴：大模型时代, 罗素教授经典《人工智能: 现代方法》给未来的启示!

邀请嘉宾

▮ 朱小虎，Center for Safe AGI创始人

▮ 肖睿，北大青鸟研究院院长

▮ 漆桂林，东南大学教授、认知智能研究所所长、腾讯云TVP

▮ 安波，新加坡南洋理工大学教授

活动流程

开始时间	结束时间	流程	嘉宾
19:30	19:35	开场	主持人
19:35	19:50	《人工智能：现代方法（第4版）》学习经验分享	罗素教授
19:50	20:15	人工智能：从认知到实践	肖睿
20:15	20:40	与AI大师对话：正确开启人工智能的未来	朱小虎
20:40	21:30	圆桌论坛：解码罗素教授《人工智能：现代方法（第4版）》对AI未来发展的启示	肖睿、朱小虎、漆桂林

本书全面、深入地探讨了人工智能（AI）领域的理论和实践，以统一的风格将当今流行的人工智能思想和术语融合到引起广泛关注的应用中，真正做到理论和实践相结合。全书分7个部分，共28章，理论部分介绍了人工智能研究的主要理论和方法并追溯了两千多年前的相关思想，内容主要包括逻辑、概率和连续数学，感知、推理、学习和行动，公平、信任、社会公益和安全；实践部分完美地践行了“现代”理念，实际应用选择当下热度较高的微电子设备、机器人行星探测器、拥有几十亿用户的在线服务、AlphaZero、人形机器人、自动驾驶、人工智能辅助医疗等。

本书适合作为高等院校人工智能相关专业本科生和研究生的教材，也可以作为相关领域专业人员的参考书。