四、阿尔法狗是如何进化的? 从国际象棋到围棋,计算机挑战人类大脑的路线图: 深蓝采用是穷尽法。有点儿像蛮力破解,即规则驱动的暴力搜索; 然后是到特征驱动的线性模型; 再到数据驱动的深度学习,越来越强的模式识别能力让“直觉”两字从神秘莫测,变成了通过大量样本就能学到的模型。 AlphaGo这个系统主要由几个部分组成: 1.走棋网络(PolicyNetwork),给定当前局面,预测/采样下一步的走棋。 2.快速走子(Fastrollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。 3.估值网络(ValueNetwork),给定当前局面,估计是白胜还是黑胜。 4.蒙特卡罗树搜索(MonteCarlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。 AlphaGo结合了3大块技术: 1、先进的搜索算法; 2、机器学习算法(即强化学习); 3、深度神经网络。 这三者的关系大致可以理解为: 蒙特卡洛树搜索 (MCTS) 是大框架,是许多牛逼博弈AI都会采用的算法。 强化学习 (RL) 是学习方法,用来提升AI的实力。 深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数。 这些都不是AlphaGo或者DeepMind团队首创的技术。但是强大的团队将这些结合在一起,配合Google公司强大的计算资源,成就了历史性的飞跃。 对战柯洁的Master,能力大增,主要是因为价值/策略网络的改善,训练和架构都变得更好。 这次的阿尔法元,让强化学习进行的更彻底,并用深度残差网络(ResNet)对输入进行简化,尽管“没有提出任何新的方法和模型”,结果极为震撼。 田渊栋说: 让我非常吃惊的是仅仅用了四百九十万的自我对局,仅仅用这些样本就能学得非常好,只能说明卷积神经网络(CNN)的结构非常顺应围棋的走法。 说句形象的话,这就相当于看了大英百科全书的第一个字母就能猜出其所有的内容。 这是一次工程和算法的胜利。 我是一位爱学习的老人!本站主要是些学习体验与分享(其中会引用一些作品的原话并结合我的一生体会与经验加工整理而成!在此一并感谢!如有不妥之处敬请与我联系,我会妥善处理,谢谢!)我写的主要是中老年人各方面应注意的事儿!退休后我希望通过这个平台广交朋友,互助交流,共筑美好生活!!!!!! 更多文章请参看http://www.赵站长的博客。期待大家的光临与指教哦^0^!欢迎大家转发! |
|
来自: 赵站长的博客 > 《人工智能大数据云计算物联网》