DeepMind 在arXiv 上发布最新论文,基于零基础无监督学习的棋类通用AlphaZero诞生,数小时训练便成为围棋、国际象棋、将棋三领域最强。 摘要: 人工智能算法 发展加速,通用强化学习算法诞生。DeepMind 团队在arXiv 上传最新论文,“全能棋王”AlphaZero 诞生,这距离AlphaGoZero 的突破仅不到50 天。此次的AlphaZero 不仅能下围棋,同时也适用于国际象棋与将棋。名字中缺少的“Go”象征着Alpha 系列首次跨领域的应用。在算法上AlphaZero 与AlphaGo Zero 同样选择了蒙特卡洛树搜索、深度神经网络(DNN)与零基础强化学习。使AlphaZero通用于围棋、国际象棋、将棋的原因主要由于算法的五点优化: AlphaZero 输入内容少,训练时间大幅降低。在AlphaZero 的训练过程中,仅输入游戏规则,训练4 小时AlphaZero 超越了最强国际象棋Stockfish;2 小时超越最强将棋Elmo;8 小时超越了李世石版的AlphaGo。完成训练的AlphaZero 以60 胜,40 负的成绩战胜AlphaGoZero。AlphaZero 在无监督学习的训练效率上实现了重大突破。 摩尔定律为人工智能的算力需求提供保障。AlphaZero 训练需要大量TPU,成本居高。计算能力提升仍然是人工智能产业落地一大关键。近年来GPU 计算能力升级加速,英伟达最新推出的Tesla V100 单精度浮点运算可达到148.99TFlops,且其性价比明显上升,摩尔定律为人工智能需要的算力提供保障。 |
|