分享

不靠人类!最强AlphaGo Zero诞生自学3天100:0 秒杀AlphaGo

 llm个人图书馆 2017-10-19

AlphaGo,封棋,棋谱,围棋,柯洁(图/路透)

2017年5月,DeepMind公司创造的AlphaGo与围棋世界冠军柯洁在中国乌镇对弈,以压倒性的3:0胜出,人工智慧发展震惊全球。

不可思议的是,时隔不到半年,这个Google旗下的AI实验室带来更强大的AlphaGo Zero,它完全不需要倚靠人类的知识和指导,从零开始自我训练,只花3天就100:0打败旧版

在过去,强大的人工智慧得依靠人类事前输入大量资料,帮助它学习、训练技能,Alpha Go成为围棋大师前自然也不例外。近日DeepMind公司在《自然》(Nature)科学期刊上发表一篇学术论文〈不需要人类知识就称霸围棋〉(Mastering the game of Go without human knowledge),展示了强化版的程式AlphaGo Zero,证明在全球最困难的棋艺竞技中,人工智慧可以在没有任何人类知识的基础上,纯粹靠自我学习成为制霸王者。


AlphaGo Zero代表从零开始,DeepMind开发团队只输入了基本的围棋规则,剩下的时间它会自行下棋,记录下每次的胜负决策、不断学习,
自己成为自己的老师,加上没有人类的经验和成规束缚,让人工智慧突破旧有的知识限制,发展出新的弈棋策略,很快的达到登峰造极新境界。

AlphaGo Zero诞生后,只花了3天时间就赢了去年打败李世乭的AlphaGo版本,局数胜负是毫无悬念的100:0。21天之后,AlphaGo Zero再度进化,能力超越了今年中打败世界冠军柯洁的AlphaGo Master版本;

40天后,它完成了2900万次的对战学习,与过去最强的AlphaGo对弈,它的胜率来到90%,成为了至今最优秀的版本,也是历史上最强的「围棋棋手」。

DeepMind指出,他们不使用任何人类知识,AlphaGo Zero用上的是新的「强化学习」方法,透过神经网路和演算法结合,持续自我对弈练习几百万、几千万场,每次的更新都能增强、调整系统,用以预测下一步落子的方向和游戏输赢走势。几天时间内,AlphaGo Zero就从一块纯洁的白板,在上头不断挥洒、创造知识,很快胜过了人类累积千年的围棋智慧。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多