人工智能前沿专题之一：移除“GO” ALPHAZERO通用算法全解析

X先生与Y星人 2017-12-13

展开全文

时间：2017年12月13日 10:00:36 中财网

本报告导读：
DeepMind 在arXiv 上发布最新论文，基于零基础无监督学习的棋类通用AlphaZero诞生，数小时训练便成为围棋、国际象棋、将棋三领域最强。

摘要：
人工智能算法发展加速，通用强化学习算法诞生。DeepMind 团队在arXiv 上传最新论文，“全能棋王”AlphaZero 诞生，这距离AlphaGoZero 的突破仅不到50 天。此次的AlphaZero 不仅能下围棋，同时也适用于国际象棋与将棋。名字中缺少的“Go”象征着Alpha 系列首次跨领域的应用。在算法上AlphaZero 与AlphaGo Zero 同样选择了蒙特卡洛树搜索、深度神经网络（DNN）与零基础强化学习。使AlphaZero通用于围棋、国际象棋、将棋的原因主要由于算法的五点优化：

1）考虑平局等结果；

2）不采用适于围棋的数据增强；

3）DNN 参数在自我对弈中不断更新；

4）通过神经网络最新参数生成自我对弈；

5）使用相同的超参数。

AlphaZero 输入内容少，训练时间大幅降低。在AlphaZero 的训练过程中，仅输入游戏规则，训练4 小时AlphaZero 超越了最强国际象棋Stockfish；2 小时超越最强将棋Elmo；8 小时超越了李世石版的AlphaGo。完成训练的AlphaZero 以60 胜，40 负的成绩战胜AlphaGoZero。AlphaZero 在无监督学习的训练效率上实现了重大突破。

摩尔定律为人工智能的算力需求提供保障。AlphaZero 训练需要大量TPU，成本居高。计算能力提升仍然是人工智能产业落地一大关键。近年来GPU 计算能力升级加速，英伟达最新推出的Tesla V100 单精度浮点运算可达到148.99TFlops，且其性价比明显上升，摩尔定律为人工智能需要的算力提供保障。