分享

阿法狗之父揭秘AlphaGo Zero:3天走完人类千年棋史

 X先生与Y星人 2017-10-19
AlphaGo跳过输入棋谱,完全让电脑在棋盘上随机落子开始自我学习。没学过人类棋谱、没学过人类棋谱、没学过人类棋谱,重要事情说三遍。
然后再来看效率。
三天,达到了李世石版本的水平。。。【图片】【图片】21天,超越Master!!!!就是零封柯洁的版本【图片】40天,成就AlphaGo Zero,有史以来最强的围棋“选手”,对之前发表过版本的胜率达到了100%。那个版本应该是第一篇《自然》论文版本。个人认为这里对Master还是互有胜负的,胜的多输的少。
这里用到的技术叫做加强学习:Reinforcement Learning。
注释:加强学习(RL)是由行为主义心理学启发的机器学习领域,涉及软件代理如何在环境中采取行动,以最大限度地提高累积奖励的概念。 由于其普遍性,在游戏理论,控制理论,运营研究,信息理论,基于仿真的优化,多代理系统,群体智能,统计学和遗传算法等诸多方面进行了研究。
系统从一个不知道围棋的神经网络开始。 然后,通过将这个神经网络与强大的搜索算法相结合,进行自我对弈。 当在这个过程中,神经网络被调整和更新,以预测动作,就像围棋冠军那样越来越强。
然后将这个更新的神经网络与搜索算法重组,以创建一个新的,更强的版本的AlphaGo Zero,并且该过程再次开始。 在每次迭代中,系统的性能提高了一小部分,自我游戏的质量也提高了,导致了越来越精确的神经网络和更强的AlphaGo Zero版本。这种技术比以前版本的AlphaGo更强大,因为它不再受到人类知识的限制。 相反,作为一块白板,它可以从世界上最强的玩家那里学习:那就是AlphaGo自己。
AlphaGo Zero与其它版本显著不同在于三点:
1,只给了它围棋规则、黑白子和棋谱,之前的版本有少量的手工修订。。。
2,它使用一个神经网络而不是两个。 AlphaGo的早期版本使用“策略网络”来选择下一个落子和“价值网络”,从每个位置预测游戏的获胜者。 这些组合在AlphaGo Zero中,使其能够更有效地进行培训和评估。
3,AlphaGo Zero不用“Rollout”,其它围棋软件是用快速随机的对弈从盘面来判断(就是到处试下然后看哪个更好),而AlphaGo Zero是通过强大的神经网络来精确判断最强的下法。【图片】不同版本AlphaGo的配置,左侧是功耗,樊麾版本有4万瓦,176个GPU,李世石版本一万瓦。现在的4TPU版本Master和AlphaGo Zero目测一两千瓦。【图片】评估的Elo分,Master是4800,AlphaGo Zero大约是5200左右,可能是李世石版本四个子的差距。。。只是从ELO数值上看。【图片】3小时的时候,和我们初学一样,胡下。【图片】19小时,学到了很多高级围棋技巧,知道了死活,外势、取地这些理念。【图片】70小时,下出高手的水平,盘面多处混战。
Nature论文没看前面,只看结论:大约是对Master版本有75%以上的胜率。因为看表分差在200以上,Deepmind解释是Elo的算法如果有75%以上胜率,就会差200分。但是看图明显不是200,目测三四百,可想AlphaGo Zero的实力有多强悍了吧!!!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多