阿法狗之父揭秘AlphaGo Zero：3天走完人类千年棋史

X先生与Y星人 2017-10-19

展开全文

AlphaGo跳过输入棋谱，完全让电脑在棋盘上随机落子开始自我学习。没学过人类棋谱、没学过人类棋谱、没学过人类棋谱，重要事情说三遍。
然后再来看效率。
三天，达到了李世石版本的水平。。。【图片】【图片】21天，超越Master！！！！就是零封柯洁的版本【图片】40天，成就AlphaGo Zero，有史以来最强的围棋“选手”，对之前发表过版本的胜率达到了100%。那个版本应该是第一篇《自然》论文版本。个人认为这里对Master还是互有胜负的，胜的多输的少。
这里用到的技术叫做加强学习：Reinforcement Learning。
注释：加强学习（RL）是由行为主义心理学启发的机器学习领域，涉及软件代理如何在环境中采取行动，以最大限度地提高累积奖励的概念。由于其普遍性，在游戏理论，控制理论，运营研究，信息理论，基于仿真的优化，多代理系统，群体智能，统计学和遗传算法等诸多方面进行了研究。
系统从一个不知道围棋的神经网络开始。然后，通过将这个神经网络与强大的搜索算法相结合，进行自我对弈。当在这个过程中，神经网络被调整和更新，以预测动作，就像围棋冠军那样越来越强。
然后将这个更新的神经网络与搜索算法重组，以创建一个新的，更强的版本的AlphaGo Zero，并且该过程再次开始。在每次迭代中，系统的性能提高了一小部分，自我游戏的质量也提高了，导致了越来越精确的神经网络和更强的AlphaGo Zero版本。这种技术比以前版本的AlphaGo更强大，因为它不再受到人类知识的限制。相反，作为一块白板，它可以从世界上最强的玩家那里学习：那就是AlphaGo自己。
AlphaGo Zero与其它版本显著不同在于三点：
1，只给了它围棋规则、黑白子和棋谱，之前的版本有少量的手工修订。。。
2，它使用一个神经网络而不是两个。 AlphaGo的早期版本使用“策略网络”来选择下一个落子和“价值网络”，从每个位置预测游戏的获胜者。这些组合在AlphaGo Zero中，使其能够更有效地进行培训和评估。
3，AlphaGo Zero不用“Rollout”，其它围棋软件是用快速随机的对弈从盘面来判断（就是到处试下然后看哪个更好），而AlphaGo Zero是通过强大的神经网络来精确判断最强的下法。【图片】不同版本AlphaGo的配置，左侧是功耗，樊麾版本有4万瓦，176个GPU，李世石版本一万瓦。现在的4TPU版本Master和AlphaGo Zero目测一两千瓦。【图片】评估的Elo分，Master是4800，AlphaGo Zero大约是5200左右，可能是李世石版本四个子的差距。。。只是从ELO数值上看。【图片】3小时的时候，和我们初学一样，胡下。【图片】19小时，学到了很多高级围棋技巧，知道了死活，外势、取地这些理念。【图片】70小时，下出高手的水平，盘面多处混战。
Nature论文没看前面，只看结论：大约是对Master版本有75%以上的胜率。因为看表分差在200以上，Deepmind解释是Elo的算法如果有75%以上胜率，就会差200分。但是看图明显不是200，目测三四百，可想AlphaGo Zero的实力有多强悍了吧！！！