最强AlphaGo降临，柯洁称相比下“人类太多余了”：不依赖任何人类知识，3天超越李世乭版本

林水土 2017-10-19

展开全文

（年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情查看“阅读原文”）

人工智能研究在语音识别、图像分类、基因组学和药物研发等领域已经取得了迅速的发展。在许多情况下，这些专业的系统依赖大量的来自人类的专业知识和数据。

然而，对于某些问题，这种人类知识或者数据可能成本过高、不可靠或根本不可用。因此，人工智能研究的一个长期目标就是绕过这一步，在那些最具挑战性的领域中创造出超人的性能，而且摆脱传统的人工层面的投入。

而这其中最有代表性、也最广为人知的莫过于 Google DeepMind 开发的人工智能围棋应用 AlphaGo。就在今天，《Nature》官网刊出了一篇名为“Self-taught AI is best yet at strategy game Go”的头条文章，DeepMind 关于 AlphaGo Zero 的最新论文也随之曝光。

从零开始

AlphaGo 是世界上第一个在围棋这项古老的中国游戏中击败世界冠军选手的 AI，而在今年的人机大战中击败人类顶尖棋手柯洁的 AlphaGo 最新版本——AlphaGo Zero——已经变得更为强大，可以说是“历史上最强的围棋选手”。

中国棋手柯洁在得知AlphaGo Zero的消息后，也第一时间发微博表示：人类太多余了......

之前版本的 AlphaGo 最初接受了基于数千人的业余和专业游戏的训练，而 AlphaGo Zero 则跳过这一步，从简单的自我对弈和随机游戏开始，之后 AlphaGo Zero 很快就超过了人类的水平，不仅如此，它还以 100:0 的完美比分打败了此前公布的 AlphaGo 版本“Master”。

通过全新的强化学习（reinforcement learning）方式，AlphaGo Zero 真正做到“无师自通”。整套 AI 系统始于一个对围棋一无所知的神经网络，通过一套强大的搜索引擎来与自己对弈。这个原本一片空白的神经网络与自己对弈的局数越多，就越能准确的调整与预测下一步棋的走法，对围棋的掌握程度也越来越高。

这套升级过的神经网络通过与搜索算法的再次整合，最终形成了全新的、更强大的 AlphaGo Zero，并不停重复这一过程。在每一个迭代版本中，系统的性能都有小的提升，自我对弈的质量也越来越高，因此形成了一个越来越精准的神经网络，这就是空前强大的 AlphaGo Zero。

这种技术相比以前版本的 AlphaGo 要更为强大，因为它不再受到人类知识的限制。相反，它可以从世界上最强的 AlphaGo 那里获得学习与提升。

除此以外，它与以前的版本在其它方面也有着明显的差别：

AlphaGo Zero 仅使用棋盘上的黑白子作为输入，而以前版本的 AlphaGo 则包含少量的人为设定功能。
AlphaGo Zero 只使用一个神经网络。AlphaGo 的早期版本则使用两个神经网络，其中“策略网络”用来选择下一步的走法，“价值网络”从每一步棋预测游戏的获胜者。而这两部分在 AlphaGo Zero 中得以整合，使其能够更有效地进行训练和评估。
AlphaGo Zero 也不使用“走子”（rollout）这一其它围棋程序在游戏中常用到的胜者推测方法。相反，它依靠其高质量的神经网络来评估每一步该怎么走才最终可能获胜。

而所有这些差异将有助于提高系统的表现并使其更为通用。但最核心的还是算法的提升使得系统变得更加强大和高效。

图丨得益于硬件和算法的双重优化，AlphaGo 的效率已经得到了空前的提升

经过短短三天的自我训练之后，AlphaGo Zero 就轻松击败了与李世乭对战的那版 AlphaGo，而且是 100 场对决无一败绩。而经过 40 天的自我训练之后，AlphaGo Zero 又变得更强了，击败了“Master”版本的 AlphaGo，而当时世界排名第一的柯洁就是败给了 Master。

图丨ELO等级分制度（Elo ratings），是当今对弈水平评估的公认的权威方法

而在 DeepMind 最新公布的关于 AlphaGo Zero 的论文中，也对其技术原理和学习机制做了深入分析。以下是论文重点概述：

图丨《不使用人类知识掌握围棋》

人工智能领域一个长期以来的目标就是一款可以在困难的领域中，从“一片空白”（Tabula Rasa）开始学习，直到实现超越人类能力的算法。

去年，AlphaGo 成为了首个在围棋上战胜人类世界冠军的软件。AlphaGo 的树搜索可以对局势进行分析，并使用深神经网络选择每一步的落子。这些神经网络是在人类专家的棋路上使用监督学习，以及在自我对弈中使用增强学习训练出来的。我们在本论文中提出了一个纯基于增强学习，不需要任何人类数据和帮助，或者规则之外任何知识的算法。AlphaGo 成为了它自己的老师：一个神经网络被训练得可以预测 AlphaGo 自己的每一步、甚至每一局的胜利者。

这个神经网络可以提高树搜索的强度，产生更高质量的落子选择，以及下一局自我对弈中更强的棋手。从“一片空白”开始，我们的新程序——AlphaGo Zero 实现了超越人类的表现：在与之前发表的战胜了人类冠军的 AlphaGo 的对弈中实现了惊人的 100 比 0 的胜率。

原版的 AlphaGo 设计有两个深度神经网络：一个计算每步落子的概率的策略网络，以及一个计算每步后的局势的价值网络。这两个神经网络被蒙特卡洛树搜索（MCTS）结合在了一起：用策略网络将搜索范围缩小为高概率的落子，用价值网络来判断搜索树中的每个局势。战胜李世乭那个版本的 AlphaGo 正是这个设计。

图丨AlphaGo 对战李世乭

新版的 AlphaGo Zero 则与原版有着多个重要的区别。首先，它是从随机落子状态，完全通过自我对弈和增强学习训练出来的。其次，它的输入函数只有棋盘上的黑白子。再次，它只使用一个神经网络，而不是策略和价值这两个神经网络。最终，它使用的树搜索更简单，只依靠这单个神经网络来判断局势和落子，而不会进行任何蒙特卡洛快速走子（Monte Carlo Rollout）。

简单来说，AlphaGo Zero 的神经网络会先列出下一步棋的可能性，再通过执行蒙特卡洛树搜索（MCTS）在这些可能性中选择最优解。通过将神经网络计算结果与 MCTS 筛选出的结果进行对比，反向再对神经网络的参数进行调整优化，使得神经网络与 MCTS 间的误差更小。在下一局自我对弈时，神经网络便会拥有一套升级版的参数。通过不停重复这个过程，在数百万次优化后，最终打造出强大的 AlphaGo Zero。

AlphaGo 的自我对弈强化学习机制

DeepMind 团队确定这套强化学习的技术原理后，将其应用在第二个版本的 AlphaGo Zero 上，这个版本拥有规模更大的神经网络和更长的训练时间。从“毫无章法”的随意走子开始，训练仅仅持续了约 40 天。

在整个训练过程中，AlphaGo Zero 共进行了 2900 万次自我对弈，进行了 310 万次参数升级。随后，DeepMind 团队现在内部对 AlphaGo Zero 进行了棋力评估，分别用战胜樊麾和李世乭的 AlphaGo 版本，以及在 2017 年 1 月以 60：0 在线完胜最强人类棋手的 AlphaGo Master，来与 AlphaGo Zero 对弈。

在整个棋力评估过程中，各版本的 AlphaGo 们仅有 5 秒时间来“思考”下一步棋的走法。其中，AlphaGo Zero 和 AlphaGo Master 只配备了 4 个 TPU（张量处理单元），而此前战胜樊麾和李世乭的 AlphaGo 则分别配备了 176 个和 48 个 TPU。

最终结果是，在最初的 AlphaGoZero 与 AlphaGo Master 持续两小时的 100 局对战中，前者以 89：11 完胜后者。

图丨Elo 棋力排名显示，AlphaGo 花了 3 天时间超越 AlphaGo 李世乭版本，21 天后超越 AlphaGo Master。

ELO 等级分制度（Elo ratings）是由匈牙利裔美国物理学家 Elo 创建的一个衡量衡量竞争性游戏中玩家的相对技能水平的评分方法，是当今对弈水平评估的公认的权威方法，被广泛应用于国际象棋、围棋、足球等运动，以及很多网游与电子竞技产业。在 AlphaGo 的开发过程中，Elo 排名的变化直观显示了 AlphaGo 是如何迅速变强的。

在数以千万计的 AlphaGo pk AlphaGo 的游戏中，系统从零开始逐渐学习了围棋游戏，并在短短几天的时间里积累了数千年的人类知识。另外，AlphaGo Zero 还发现了新的知识，可以开发一些非常规策略和创新之举，甚至还超越了其在与李世乭和柯洁的比赛中所发挥的惊人之举。

AlphaGo 发挥创意的那些时刻让我们对这一未来颇具信心：人工智能将成为创造力高于人类的存在，并帮助我们解决人类面临的一些最重要的挑战。

虽然仍处于上述愿景的早期阶段，但 AlphaGo Zero 是迈向这一目标的关键一步。如果可以将类似的技术应用于其他结构化问题，如蛋白质折叠、减少能源消耗或寻找革命性的新材料，这些突破在对社会产生积极影响上潜力巨大。

-End-