AlphaGo遥指通用AI：一个算法攻陷三大棋类游戏，成为棋类游戏终结者

昆仑圃 2018-12-07

展开全文

图片来源：science

撰文 | 李晓慧

AlphaGo之父、Deepmind创始人兼CEO 哈萨比斯（Demis Hassabis）曾经提出一个远期目标：打造通用的人工智能，它将是一套灵活的自适应算法，能够从头自学掌握各种任务。在去年年底的NIPS大会上，哈萨比斯首次公开解读了AlphaZero：在AplhaGo Zero的基础上，AlphaZero又学会了国际象棋和日本将棋，分别击败了当时最好的国际象棋引擎Stockfish和日本将棋程序Shogi，以及此前创下佳绩的围棋程序AphaGo Zero，AlphaZero俨然成为了一个更通用的人工智能算法。

不过人们很好奇，为什么这样一个看似重大的突破，却这样草草的发布，不仅没有像此前一样首先发表于顶级科学期刊，也没有投会议论文，只是在预印本网站发布了论文。

有人称赞AlphaZero是又一次突破，但也有人对其科学有效性提出了质疑。比如，精通国际象棋的AI专家Jose Camacho Collados 撰文指出，AlphaZero的代码没有开源，从科学角度看，其方法无法被其它专家验证。

时隔一年，今天，AlphaZero的论文登上科学期刊Science的封面，用严格的同行评审证明了新算法取得的突破。

本周Science封面

更通用的游戏系统

从计算机时代的早期开始，游戏就被认为是人工智能研究的重要载体。游戏简化了现实世界中的问题，同时保留了足够的复杂性挑战人类与机器。

曾经，大多数棋类游戏的程序是人工设计的。利用先进的搜索方法、复杂的评估功能以及各种技巧，很多程序已经能够超越最优秀的人类玩家。

早在1997年，IBM的计算机“深蓝”击败了俄籍世界国际象棋冠军，近20年后，2015年10月，AlphaGo在难度超高的围棋比赛中，终于在无需让子的情况下，历史性地击败了围棋职业棋手，登上科学期刊Nature。此后，AlphaGo的发展进入快车道，2017年10月，AlphaGo的升级版AlphaGo Zero登上Nature，这是一个没有用到人类数据的版本，它通过与自己对战，超越了世界上最强的棋手与程序。

2017年12月，Alpha Zero发布，它使用与AlphaGo Zero类似的方法，但是更加通用，不仅自学了围棋，还学会了国际象棋和日本将棋，成为掌握了三种世界上最难棋类游戏的人工智能，彼时发布在网上预印本系统arXiv上。经过了严格的评审过程后，2018年12月7日的Science杂志作为封面内容报道了AlphaZero。

AlphaZero依然使用AlphaGo Zero的框架：深度强化学习加蒙特卡洛树搜索。利用5064个TPU的强大计算资源，在24小时内，自我对弈，总体击败了在单项领域中的最强程序。

在学习每个棋种的时候，系统在自我对弈的胜负中学习，以调整神经网络的参数，使其更可能在未来选择有利的动作。训练量大小取决于比赛的风格和复杂程度，对于AlphaZero来说，国际象棋的训练大约需要9小时，日本将棋的训练需要12天，围棋则需要13天。

在国际象棋比赛中，AlphaZero在4小时后第一次击败了国际象棋最强程序Stockfish；在日本将棋比赛中，2小时后击败了日本将棋的最强程序Elmo；在围棋比赛中，30小时后首次战胜了与李世石对战的AlphaGo v18。

针对AlphaZero这一成果，曾经参与构建了IBM“深蓝”系统的IBM研究院研究员Murray Campbell发表了评论文章，他指出，相比此前的AlphaGo和AlphaGo Zero，AlphaZero更加具有通用性，仅根据规则，通过自我对弈就能在较短的时间内，在多种棋类达到顶级水平。

同时，他认为AlphaZero算是棋类AI的终结者，未来研究人员需要挑战的是新一代游戏。

质疑与褒奖

在AlphaZero最早出现的时候，褒奖与质疑同时出现。有人质疑AlphaZero在与国际象棋和日本将棋的对战中，处于不公平的比赛环境。因为国际象棋程序Stockfish和日本将棋程序Elmo都无法利用AlphaZero设计使用的TPU硬件。

Deepmind对比赛环境进行了解释，在其今日发表的博客中，写道：每一个程序都在为其设计的硬件上运行，Stockfish和Elmo使用44个CPU，而AlphaZero和AlphaGo Zero使用了4个一代TPU和44个CPU。

棋手们对AlphaZero多有赞扬，前国际象棋世界冠军Garry Kasparov称：“飞机不会像鸟一样拍打翅膀，机器也不像人类一样下棋……这些自学成才的专家机器不仅仅有出色的表现，而且我们可以从它们所产生的知识中学到更多。”

AlphaZero能够同时精通三种棋类（图片来源：Science）

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：昆仑圃 > 《环球科学》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

昆仑圃

关注对话

TA的最新馆藏

精明的“看家狗”
奇诺之旅1
[转] 《中国新农民手册》病害篇第四章细菌引起的作物病害
[转] 看这个就够了！植物病害最全解释！
史上最全农药知识（珍藏版）
许立明 | 柑橘保果关键技术

喜欢该文的人也喜欢更多

热门阅读换一换