来源:Shane Moon的Slideshare主页 编译:梁悦 最绚烂的火花,永远产生于森然秩序被打破,天才超然于规律之外的那一瞬间 卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理 在刚刚结束的“AlphaGo”与韩国围棋高手李世石之间的人机大战第五局中,李世石执黑负,无缘两连胜。至此,人机大战五番棋全部结束,李世石1-4输掉对决,无缘100万美元赢棋奖金。 为了让大家从另外一面了解AlphaGo,Computer Science排名第一的卡内基梅隆大学的博士研究生 Shane Moon(个人主页:http:///)做了一次演讲,他就读于卡内基梅隆大学著名的语言技术研究所,纯干货讲稿PPT奉上。
演讲人:Shane Moon
电脑围棋人工智能
我们可以把棋盘想象成一个矩阵
假设它模拟所有可能的棋盘落子位置呢?
减少可选择的着法 得到P(下一次落子|现在的位置) 减少可选择的着法:模仿专业高手的着法(在指导下学习) 建立棋盘的预测模型
这个深度学习过程要经过13层“CNN”
卷积神经网络:抽象是其特长
两个专业高手着法模仿模型进行对弈 输赢两种结局 更新模型,不断进行新旧模型之间的对弈,最后一个版本的模型和初始版本对弈已经有了八成赢面 盘面形势评估 使用两个模型:上文最新版本的模仿模型与价值预测模型(复盘)
李世乭九段与AlphaGo的能量功耗对比 据估测,AlphaGo的水准在业余五段左右 将CPU/GPU资源运用到极致? AlphaGo每天都学习数以百万计的对局 如果AlphaGo学习了李世乭的策略会怎样?谷歌表示他们不会将李世乭的比赛数据用于AlphaGo的训练数据,即使它真的学习了,仅仅与李世乭对弈几盘就修改在海量数据下训练过的模型也是很难的 AlphaGo的弱点是什么?留待研究
延伸阅读 MORE ﹀ ﹀ ﹀ |
|