【原】Google宣布升级版AlphaGo Zero，人类在围棋上再也毫无胜算

超能网 2020-10-28

展开全文

今天Google专门从事深度学习研究的子公司DeepMind宣布新一代Alpha Go正式诞生，被命名为AlphaGo Zero（零号阿尔法狗？）。在经历了AlphaGo Lee、AlphaGo Master等等多个版本的迭代，AlphaGo Zero开始了全新的模式，它再也不学习人类的棋谱、走法，而是完全依靠自我对弈来迅速提高棋艺，从而走出人类对于围棋认知的局限与定式，可能围棋也成为人类无法打败机器人的一种棋。

今年我们见识过Alpha Go利用深度神经网络算法进行学习后，围棋棋艺提升速度之快，让人瞠目结舌，先在AlphaGo Lee 4:1击败韩国棋手李世石，后有AlphaGo Master在网络围棋上以60:0全胜记录，横扫围棋高手，尔后又有中国围棋第一人柯洁0:3完败给AlphaGo 2.0。大家见证了深度学习下的AlphaGo每天都在发育成长，棋艺一步步超越人类，甚至可以走出人类不曾理解的全新走法。

AlphaGo Zero与之前所有版本的AlphaGo最大不同再与，它抛弃过去先学习人类棋谱、定式走法，然后在自我对弈提升棋力，但是这样有一个非常严重的缺陷，那就是带有模仿人类的围棋模式，这样AlphaGo的棋艺也会被局限于人类对于围棋认知范围之内。因此AlphaGo Zero选择了一条光明大道，在几周的时间内学习围棋的一些一些关键概念，但该系统学习的内容已抛弃一切与人类积累围棋知识，然后会自我对弈达到学习目的。在40天的训练时间内，AlphaGo Zero无休止地运行了2900万次自我对弈。

简单来说，AlphaGo Zero不模仿人类最好的走法，而是完全为了胜利而下棋，这样纯粹的走法或许可以帮助人类选手走出围棋认知困局。同时这种全新的学习思路被证实是行之有效的，实战证明AlphaGo Zero可以百分百胜过AlphaGo Lee，而对战AlphaGo Master胜率也有89%。

我们都知道AlphaGo背后依靠的是强大的超级电脑进行实时运算，更令人惊讶的是，AlphaGo Zero居然可以做到使用更少的硬件规模得到更好的结果，从第一代AlphaGo Fan需要用到176个GPU芯片，到AlphaGo Zero和AlphaGo Master一样，只需要使用一台配有4个TPU的机器即可完成任务。可以说是实现了质的飞跃，而非靠数量来取胜，围棋算法上应该取得了重大突破。减少硬件规模带来的优势之一就是功耗急剧减少，功耗减少了数十倍。