分享

人工智能前沿专题之一:移除“GO” ALPHAZERO通用算法全解析

 X先生与Y星人 2017-12-13
时间:2017年12月13日 10:00:36 中财网
本报告导读:
DeepMind 在arXiv 上发布最新论文,基于零基础无监督学习的棋类通用AlphaZero诞生,数小时训练便成为围棋、国际象棋、将棋三领域最强。

摘要:
人工智能算法 发展加速,通用强化学习算法诞生。DeepMind 团队在arXiv 上传最新论文,“全能棋王”AlphaZero 诞生,这距离AlphaGoZero 的突破仅不到50 天。此次的AlphaZero 不仅能下围棋,同时也适用于国际象棋与将棋。名字中缺少的“Go”象征着Alpha 系列首次跨领域的应用。在算法上AlphaZero 与AlphaGo Zero 同样选择了蒙特卡洛树搜索、深度神经网络(DNN)与零基础强化学习。使AlphaZero通用于围棋、国际象棋、将棋的原因主要由于算法的五点优化:


1)考虑平局等结果;


2)不采用适于围棋的数据增强;


3)DNN 参数在自我对弈中不断更新;


4)通过神经网络最新参数生成自我对弈;


5)使用相同的超参数。

AlphaZero 输入内容少,训练时间大幅降低。在AlphaZero 的训练过程中,仅输入游戏规则,训练4 小时AlphaZero 超越了最强国际象棋Stockfish;2 小时超越最强将棋Elmo;8 小时超越了李世石版的AlphaGo。完成训练的AlphaZero 以60 胜,40 负的成绩战胜AlphaGoZero。AlphaZero 在无监督学习的训练效率上实现了重大突破。

摩尔定律为人工智能的算力需求提供保障。AlphaZero 训练需要大量TPU,成本居高。计算能力提升仍然是人工智能产业落地一大关键。近年来GPU 计算能力升级加速,英伟达最新推出的Tesla V100 单精度浮点运算可达到148.99TFlops,且其性价比明显上升,摩尔定律为人工智能需要的算力提供保障。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多