分享

最强AlphaGo降临,柯洁称相比下“人类太多余了”:不依赖任何人类知识,3天超越李世乭版本

 林水土 2017-10-19

(年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情查看“阅读原文”)


人工智能研究在语音识别、图像分类、基因组学和药物研发等领域已经取得了迅速的发展。在许多情况下,这些专业的系统依赖大量的来自人类的专业知识和数据。



然而,对于某些问题,这种人类知识或者数据可能成本过高、不可靠或根本不可用。因此,人工智能研究的一个长期目标就是绕过这一步,在那些最具挑战性的领域中创造出超人的性能,而且摆脱传统的人工层面的投入。

 

而这其中最有代表性、也最广为人知的莫过于 Google DeepMind 开发的人工智能围棋应用 AlphaGo。就在今天,《Nature》官网刊出了一篇名为“Self-taught AI is best yet at strategy game Go”的头条文章,DeepMind 关于 AlphaGo Zero 的最新论文也随之曝光。

  
 

从零开始

 

AlphaGo 是世界上第一个在围棋这项古老的中国游戏中击败世界冠军选手的 AI,而在今年的人机大战中击败人类顶尖棋手柯洁的 AlphaGo 最新版本——AlphaGo Zero——已经变得更为强大,可以说是“历史上最强的围棋选手”。


中国棋手柯洁在得知AlphaGo Zero的消息后,也第一时间发微博表示:人类太多余了......



之前版本的 AlphaGo 最初接受了基于数千人的业余和专业游戏的训练,而 AlphaGo Zero 则跳过这一步,从简单的自我对弈和随机游戏开始,之后 AlphaGo Zero 很快就超过了人类的水平,不仅如此,它还以 100:0 的完美比分打败了此前公布的 AlphaGo 版本“Master”。

 


通过全新的强化学习(reinforcement learning)方式,AlphaGo Zero 真正做到“无师自通”。整套 AI 系统始于一个对围棋一无所知的神经网络,通过一套强大的搜索引擎来与自己对弈。这个原本一片空白的神经网络与自己对弈的局数越多,就越能准确的调整与预测下一步棋的走法,对围棋的掌握程度也越来越高。

 

这套升级过的神经网络通过与搜索算法的再次整合,最终形成了全新的、更强大的 AlphaGo Zero,并不停重复这一过程。在每一个迭代版本中,系统的性能都有小的提升,自我对弈的质量也越来越高,因此形成了一个越来越精准的神经网络,这就是空前强大的 AlphaGo Zero。

 


这种技术相比以前版本的 AlphaGo 要更为强大,因为它不再受到人类知识的限制。相反,它可以从世界上最强的 AlphaGo 那里获得学习与提升。

 

除此以外,它与以前的版本在其它方面也有着明显的差别:

 

  • AlphaGo Zero 仅使用棋盘上的黑白子作为输入,而以前版本的 AlphaGo 则包含少量的人为设定功能。


  • AlphaGo Zero 只使用一个神经网络。AlphaGo 的早期版本则使用两个神经网络,其中“策略网络”用来选择下一步的走法,“价值网络”从每一步棋预测游戏的获胜者。而这两部分在 AlphaGo Zero 中得以整合,使其能够更有效地进行训练和评估。


  • AlphaGo Zero 也不使用“走子”(rollout)这一其它围棋程序在游戏中常用到的胜者推测方法。相反,它依靠其高质量的神经网络来评估每一步该怎么走才最终可能获胜。

 

而所有这些差异将有助于提高系统的表现并使其更为通用。但最核心的还是算法的提升使得系统变得更加强大和高效。

 

图丨得益于硬件和算法的双重优化,AlphaGo 的效率已经得到了空前的提升


经过短短三天的自我训练之后,AlphaGo Zero 就轻松击败了与李世乭对战的那版 AlphaGo,而且是 100 场对决无一败绩。而经过 40 天的自我训练之后,AlphaGo Zero 又变得更强了,击败了“Master”版本的 AlphaGo,而当时世界排名第一的柯洁就是败给了 Master。

 

图丨ELO等级分制度(Elo ratings),是当今对弈水平评估的公认的权威方法


而在 DeepMind 最新公布的关于 AlphaGo Zero 的论文中,也对其技术原理和学习机制做了深入分析。以下是论文重点概述:

 

图丨《不使用人类知识掌握围棋》

 

人工智能领域一个长期以来的目标就是一款可以在困难的领域中,从“一片空白”(Tabula Rasa)开始学习,直到实现超越人类能力的算法。

 

去年,AlphaGo 成为了首个在围棋上战胜人类世界冠军的软件。AlphaGo 的树搜索可以对局势进行分析,并使用深神经网络选择每一步的落子。这些神经网络是在人类专家的棋路上使用监督学习,以及在自我对弈中使用增强学习训练出来的。我们在本论文中提出了一个纯基于增强学习,不需要任何人类数据和帮助,或者规则之外任何知识的算法。AlphaGo 成为了它自己的老师:一个神经网络被训练得可以预测 AlphaGo 自己的每一步、甚至每一局的胜利者。

 

这个神经网络可以提高树搜索的强度,产生更高质量的落子选择,以及下一局自我对弈中更强的棋手。从“一片空白”开始,我们的新程序——AlphaGo Zero 实现了超越人类的表现:在与之前发表的战胜了人类冠军的 AlphaGo 的对弈中实现了惊人的 100 比 0 的胜率。

 

原版的 AlphaGo 设计有两个深度神经网络:一个计算每步落子的概率的策略网络,以及一个计算每步后的局势的价值网络。这两个神经网络被蒙特卡洛树搜索(MCTS)结合在了一起:用策略网络将搜索范围缩小为高概率的落子,用价值网络来判断搜索树中的每个局势。战胜李世乭那个版本的 AlphaGo 正是这个设计。

 

图丨AlphaGo 对战李世乭


新版的 AlphaGo Zero 则与原版有着多个重要的区别。首先,它是从随机落子状态,完全通过自我对弈和增强学习训练出来的。其次,它的输入函数只有棋盘上的黑白子。再次,它只使用一个神经网络,而不是策略和价值这两个神经网络。最终,它使用的树搜索更简单,只依靠这单个神经网络来判断局势和落子,而不会进行任何蒙特卡洛快速走子(Monte Carlo Rollout)。

 

简单来说,AlphaGo Zero 的神经网络会先列出下一步棋的可能性,再通过执行蒙特卡洛树搜索(MCTS)在这些可能性中选择最优解。通过将神经网络计算结果与 MCTS 筛选出的结果进行对比,反向再对神经网络的参数进行调整优化,使得神经网络与 MCTS 间的误差更小。在下一局自我对弈时,神经网络便会拥有一套升级版的参数。通过不停重复这个过程,在数百万次优化后,最终打造出强大的 AlphaGo Zero。

  

AlphaGo 的自我对弈强化学习机制

 

DeepMind 团队确定这套强化学习的技术原理后,将其应用在第二个版本的 AlphaGo Zero 上,这个版本拥有规模更大的神经网络和更长的训练时间。从“毫无章法”的随意走子开始,训练仅仅持续了约 40 天。


在整个训练过程中,AlphaGo Zero 共进行了 2900 万次自我对弈,进行了 310 万次参数升级。随后,DeepMind 团队现在内部对 AlphaGo Zero 进行了棋力评估,分别用战胜樊麾和李世乭的 AlphaGo 版本,以及在 2017 年 1 月以 60:0 在线完胜最强人类棋手的 AlphaGo Master,来与 AlphaGo Zero 对弈。

 

在整个棋力评估过程中,各版本的 AlphaGo 们仅有 5 秒时间来“思考”下一步棋的走法。其中,AlphaGo Zero 和 AlphaGo Master 只配备了 4 个 TPU(张量处理单元),而此前战胜樊麾和李世乭的 AlphaGo 则分别配备了 176 个和 48 个 TPU。

 

最终结果是,在最初的 AlphaGoZero 与 AlphaGo Master 持续两小时的 100 局对战中,前者以 89:11 完胜后者。

  

图丨Elo 棋力排名显示,AlphaGo 花了 3 天时间超越 AlphaGo 李世乭版本,21 天后超越 AlphaGo Master。

 

ELO 等级分制度(Elo ratings)是由匈牙利裔美国物理学家 Elo 创建的一个衡量衡量竞争性游戏中玩家的相对技能水平的评分方法,是当今对弈水平评估的公认的权威方法,被广泛应用于国际象棋、围棋、足球等运动,以及很多网游与电子竞技产业。在 AlphaGo 的开发过程中,Elo 排名的变化直观显示了 AlphaGo 是如何迅速变强的。

 

在数以千万计的 AlphaGo pk AlphaGo 的游戏中,系统从零开始逐渐学习了围棋游戏,并在短短几天的时间里积累了数千年的人类知识。另外,AlphaGo Zero 还发现了新的知识,可以开发一些非常规策略和创新之举,甚至还超越了其在与李世乭和柯洁的比赛中所发挥的惊人之举。

 

AlphaGo 发挥创意的那些时刻让我们对这一未来颇具信心:智能将成为创造力高于人类的存在,并帮助我们解决人类面临的一些最重要的挑战。

 


虽然仍处于上述愿景的早期阶段,但 AlphaGo Zero 是迈向这一目标的关键一步。如果可以将类似的技术应用于其他结构化问题,如蛋白质折叠、减少能源消耗或寻找革命性的新材料,这些突破在对社会产生积极影响上潜力巨大。

-End-



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多