分享

AlphaGo遥指通用AI:一个算法攻陷三大棋类游戏,成为棋类游戏终结者

 昆仑圃 2018-12-07

图片来源:science


撰文 | 李晓慧


AlphaGo之父、Deepmind创始人兼CEO 哈萨比斯(Demis Hassabis)曾经提出一个远期目标:打造通用的人工智能,它将是一套灵活的自适应算法,能够从头自学掌握各种任务。在去年年底的NIPS大会上,哈萨比斯首次公开解读了AlphaZero:在AplhaGo Zero的基础上,AlphaZero又学会了国际象棋和日本将棋,分别击败了当时最好的国际象棋引擎Stockfish和日本将棋程序Shogi,以及此前创下佳绩的围棋程序AphaGo Zero,AlphaZero俨然成为了一个更通用的人工智能算法。


不过人们很好奇,为什么这样一个看似重大的突破,却这样草草的发布,不仅没有像此前一样首先发表于顶级科学期刊,也没有投会议论文,只是在预印本网站发布了论文。


有人称赞AlphaZero是又一次突破,但也有人对其科学有效性提出了质疑。比如,精通国际象棋的AI专家Jose Camacho Collados 撰文指出,AlphaZero的代码没有开源,从科学角度看,其方法无法被其它专家验证。


时隔一年,今天,AlphaZero的论文登上科学期刊Science的封面,用严格的同行评审证明了新算法取得的突破。


本周Science封面



更通用的游戏系统


从计算机时代的早期开始,游戏就被认为是人工智能研究的重要载体。游戏简化了现实世界中的问题,同时保留了足够的复杂性挑战人类与机器。


曾经,大多数棋类游戏的程序是人工设计的。利用先进的搜索方法、复杂的评估功能以及各种技巧,很多程序已经能够超越最优秀的人类玩家。


早在1997年,IBM的计算机“深蓝”击败了俄籍世界国际象棋冠军,近20年后,2015年10月,AlphaGo在难度超高的围棋比赛中,终于在无需让子的情况下,历史性地击败了围棋职业棋手,登上科学期刊Nature。此后,AlphaGo的发展进入快车道,2017年10月,AlphaGo的升级版AlphaGo Zero登上Nature,这是一个没有用到人类数据的版本,它通过与自己对战,超越了世界上最强的棋手与程序。


2017年12月,Alpha Zero发布,它使用与AlphaGo Zero类似的方法,但是更加通用,不仅自学了围棋,还学会了国际象棋和日本将棋,成为掌握了三种世界上最难棋类游戏的人工智能,彼时发布在网上预印本系统arXiv上。经过了严格的评审过程后,2018年12月7日的Science杂志作为封面内容报道了AlphaZero。


AlphaZero依然使用AlphaGo Zero的框架:深度强化学习加蒙特卡洛树搜索。利用5064个TPU的强大计算资源,在24小时内,自我对弈,总体击败了在单项领域中的最强程序。



在学习每个棋种的时候,系统在自我对弈的胜负中学习,以调整神经网络的参数,使其更可能在未来选择有利的动作。训练量大小取决于比赛的风格和复杂程度,对于AlphaZero来说,国际象棋的训练大约需要9小时,日本将棋的训练需要12天,围棋则需要13天。


在国际象棋比赛中,AlphaZero在4小时后第一次击败了国际象棋最强程序Stockfish;在日本将棋比赛中,2小时后击败了日本将棋的最强程序Elmo;在围棋比赛中,30小时后首次战胜了与李世石对战的AlphaGo v18。



针对AlphaZero这一成果,曾经参与构建了IBM“深蓝”系统的IBM研究院研究员Murray Campbell发表了评论文章,他指出,相比此前的AlphaGo和AlphaGo Zero,AlphaZero更加具有通用性,仅根据规则,通过自我对弈就能在较短的时间内,在多种棋类达到顶级水平。


同时,他认为AlphaZero算是棋类AI的终结者,未来研究人员需要挑战的是新一代游戏。



质疑与褒奖


在AlphaZero最早出现的时候,褒奖与质疑同时出现。有人质疑AlphaZero在与国际象棋和日本将棋的对战中,处于不公平的比赛环境。因为国际象棋程序Stockfish和日本将棋程序Elmo都无法利用AlphaZero设计使用的TPU硬件。


Deepmind对比赛环境进行了解释,在其今日发表的博客中,写道:每一个程序都在为其设计的硬件上运行,Stockfish和Elmo使用44个CPU,而AlphaZero和AlphaGo Zero使用了4个一代TPU和44个CPU。


棋手们对AlphaZero多有赞扬,前国际象棋世界冠军Garry Kasparov称:“飞机不会像鸟一样拍打翅膀,机器也不像人类一样下棋……这些自学成才的专家机器不仅仅有出色的表现,而且我们可以从它们所产生的知识中学到更多。”


AlphaZero能够同时精通三种棋类(图片来源:Science)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多