AlphaZero: 直觉是如何摧毁逻辑的

长沙7喜 2017-12-29

展开全文

Unsplash 上 Luiz Hanfilaque 拍摄的照片

作者｜AlphaZero

译者｜孙浩

编辑｜Emily

AI前线导读：现代文明和科技带来的额外实惠导致了我们自身直觉的衰退。我们中的许多人已经意识不到它的价值，甚至它的客观存在。直觉作为复杂计算的基础，是一种很容易被忽视的传统方法之外的方法。对这种理念认识的缺乏导致许多研究人员忽视了它的潜力。

更多干货内容请关注微信公众号“AI前线”，（ID：ai-front）

直觉是神圣的礼物，理性的头脑是忠实的仆人。我们创造了一个尊重仆人的社会，却忘记了礼物。
—— 爱因斯坦

我在人工智能 (AI) 中所做的研究是以“高级认知机器将利用直觉作为其智能的基础”为中心的 (参见：“人工直觉”)。我们自己的人类思维为一般智力提供了充足的依据。人类本质上是直觉机器，而我们的理性 (和有意识的) 自我只是一个基于直觉的机器 (见：“认知堆栈”) 之上的一个模拟层。这与笛卡尔著名的“我思故我在”(Cogito ergo sum) 形成了鲜明的对比，这意味着我们的理性思考是将我们与所有生物区分开来的东西。因此，我们有一种认知上的偏见，即要求由逻辑机器驱动技术和方法。这确实是出色的老式人工智能 (GOFAI) 数十年间失败的原因，因为它试图以形式逻辑去解决智力问题为出发点。

直觉机器的一个反直觉的预测是“逻辑思维是如何从直觉机器产生的?”自从 2012 年以来，我们看到了深度学习技术的惊人进步。深度学习网络是直觉机器。这些系统通过使用归纳法来学习执行推理 (或作出预测)。深度学习系统能够执行通常认为只有生物大脑才能做到的任务。诸如面部识别和语音识别等任务，对于传统计算能力来说很难，而深度学习系统的表现却可以超出人类的水平。

然而，深度学习网络却无法执行诸如长除法之类的逻辑任务。人们不应该期望能够教会动物 (比如你的狗) 做乘法，当然还有加法或减法。然而，人类的大脑能够执行各种各样的逻辑问题。我们不得不问，一个穴居人会做乘法么? 我们天生就具备先进的逻辑认知能力吗? 还是我们在先进的文明中才学习到的这些能力?

要实现更普遍的人工智能，需要跨越的鸿沟是所谓的“语义鸿沟”。我们如何将深度学习 (亚符号) 系统的能力与逻辑 (符号) 系统相结合?

人类的思维能够完成逻辑推理的伟大壮举。如果我们的机器都是基于直觉的，我们的思维是如何做到这一点的呢？我将在这里假设我们没有任何天生的逻辑机制。我们在这个星球上生存的很短的时间里，智人不可能进化出这种认知机制。因此，为了弥补语义上的鸿沟，我们需要用直觉的机制来沟通。这意味着我们不需要将直觉组件与逻辑组件融合为一体。但我们所有人永远都需要直觉组件。

因此，我们需要有充分的证据证明，复杂的逻辑思维可以由直觉机器来完成。

这就是 AlphaZero 的革命性启示之所在。AlphaZero 是 DeepMind 围棋程序的最新进化版。我之前曾写过关于 AlphaGo Zero(不同于 AlphaZero) 是如何从头学会下围棋 (不懂人类知识) 的文章。西方人从来没有玩过围棋，根本就不懂围棋。因此，DeepMind AlphaGo Zero 相关成就的影响力被削弱了。我们不明白这一成就的巨大意义。不管怎样，围棋已被认定是一种直觉游戏。因此，直觉机器 (以深度学习为基础) 能够精通此游戏并不令人吃惊。

DeepMind 的新化身 (AlphaZero) 能做的便是玩国际象棋。这当然不会让很多人感到惊讶，因为自从 1996 年 IBM 的深蓝击败 Kasparov 以来，国际象棋已经被计算机“解决”了。对于那些不懂的人来说，AlphaZero 从零开始学习国际象棋的玩法，花了几个小时的时间就能精通不算什么。AlphaZero 能够在 100 场比赛中打败最好的国际象棋程序 (Stockfish) 也算不了什么。

真正了不起的地方是，AlphaZero 是如何与更加逻辑型的对手拆招的。为了给你一些直观认识，我将引用国际象棋比赛社区中的一些评论。

它接近“B 类”，这是一种类似于人类的机器棋手，而非蛮力计算，这曾是克劳德·香农和艾伦·图灵的梦想。——加里·卡斯帕罗夫。
我一直在想，如果一个优秀的物种来到地球上，向我们展示它们是如何下棋的，那将是怎样的情景。我现在感觉我知道了。——彼得·海涅尼尔森
“它不像人类那样玩，它也不像一个程序。它用的是第三种方法，像外星人的方法。”——丹米斯·哈萨比斯 (他也是棋手)

对于那些理解国际象棋游戏的人来说，最好是看一下 AlphaZero 和 Stockfish 的实际比赛。你将看到的是一个基于直觉的系统如何与基于逻辑的对手拆招的（比如，不排斥弃兵）。以下是一些专家的评论：

AlphaZero 玩的是一款完全不同的象棋游戏。为了获得相对于对手的位置优势，它愿意牺牲部分。它在玩一种国际象棋柔道，它利用对手的急切渴望来获得自身的直接利益。它将对手设置为“被动强制”状态，在这种情况下，对手的每一次移动都会导致更糟糕的结果。它似乎更全面地理解了象棋的游戏，所有棋子都以高度协调的方式移动。“AlphaGo zero”玩游戏时可以最大化其其创造力，对抗无法在短期内取得突破的逻辑型对手。它玩国际象棋不仅不可思议，假如在过去，甚至还将被放进纪念馆里让所有人瞻仰赞叹。

这篇关于 AlphaZero 的论文是在最近的 2017 年神经信息处理系统大会上发表的。这是一篇极短的论文，正文只有 7 页长。关于它如何评估盘面的位置来决定走棋，它提到了一个有趣的细节。

AlphaZero 在国际象棋中每秒只检索 8 万个位置，而 Stockfish 检索的数量为 7000 万。直觉机器使用的评估比它的逻辑对手少 1000 倍。

你们在这里所看到的 AlphaZero，是对我最初关于直觉机器及其执行逻辑推理能力的论点的验证。这是正在跨越的语义上的鸿沟。这一极其困难的通用人工智能领域的里程碑难题，正以创纪录的速度被跨越。我不信人工智能社区有人能够预料到速度进展如此之快。然而，这种情况已经发生，并且现状已经永远地被改变了。

查看英文原文：

https:///intuitionmachine/alphazero-how-intuition-demolished-logic-66a4841e6810