这样的一棵树基本上把自己接下来可能的步数,以及对手可能走的步数都模拟了一遍,这就是大家下棋的时候所说的能够往后看几步了。看得步数越多,显然赢的可能性就越大,因此就越厉害。对于九宫棋(三子棋),所有的状态空间是一定的,所以其实是能够知道必胜的走法的。但是对于围棋或者象棋来说,每一次可能的步数都很多,这样每多看一步,就产生很多倍的新的状态空间,对于机器来说,可能就会内存不够或者时间不够了。许丞因此大家会定义一个用来评估当前局面的函数,叫做评估函数。比如拿九宫棋来说,可以有很多,比如那可以是目前已经连成2个子的个数,或者任然空着的行列对角线的个数等等。评估这个局面可以告诉计算机,目前我这一步的情况如何,是不是很好。对于某些特别不好的局面,那么评估之后就会被剪掉,这叫做剪枝法。因为博弈树是一个下完一个,另外一个跟着下,因此剪枝的方法一般用的是α–β剪枝法(Alpha–beta pruning)通过这颗搜索树,那么机器就知道如何下子跟走棋了。许丞鼓励师这样就明白了。那么《自然》论文的AlphaGo的原理是什么样的呢?跟刚刚讲的一样吗?其实所有的计算机下棋的程序抽象来看都是上面那个的过程。只是因为难度不一样,所以具体的算法复杂性也会有巨大的区别。AlphaGo最厉害的地方是用人工神经网络来建模了“棋感”这一个完全无法用计算机语言来描述的概念。通过上面的学习我们可以知道,评估一个棋局的局面实际上可以用简单的函数来描述,也可以通过往后看几步来分析。这个评估函数建模了棋局的胜负概率,因此至关重要。人类经过训练之后,能够比较快速的去数目并判断棋盘的局势,但是机器显然很难(对于计算来说,数数显然是很快的,但是围棋的目数和局势显然不是单纯数一下数目)。许丞AlphaGo的几个核心部分是 1. Policy Network: 用来预测如果是人类最好的选手,他会选择哪一个走法。这个模型是用深层神经网络实现的,其实是建立了最好棋手棋感的一部分。2. Fast rollout: 快速走子,跟1的功能一样,但是用了不同的模型,这个模型跟预测点击率的Logistic Regression模型没有区别。3. Value Network: 评估当前的棋局形势。4. Monte Carlo Tree Search: 蒙特卡洛树搜索。用来进行状态空间的快速搜索的概率模型。拿着刚刚学习的东西来对比:许丞Policy/Value Network是对比与上文说的评估函数。在上面的搜索树里面用了一个简单的数数的方式,而在AlphaGo中,用的是棋感和预测走子的方式来进行构建状态空间。许丞而蒙特卡洛树搜索是一个概率搜索算法,跟上面的博弈树搜索是一个套路的东西,只是用的是概率模型来进行更有效的搜索。许丞鼓励师太复杂了没看懂,那么您直接告诉我。。。他的贡献是什么吧?建立了棋感是很重要的贡献。人和机器根本的不一致在于: 如果你给他看一个图片;对于机器而言,他看到的都是0/1这样的二进制数字,除了最基础的可以去数里面有多少不同颜色什么信息以外,啥都不知道。而人可以从全局的角度看这个图片,这样就能知道这个图片大概是什么东西,是什么内容。棋感也是一样 - 人工神经网络应用在计算机视觉上的重要突破,就是人不再让计算机用0/1来去识别图像内容了,而是让计算机自动的去抽取图像的语义特征--当然很可能只是一个一个小图块tiles这种组合方式的语义特征。这样计算机就可以开始慢慢的能够开始感知到这个物体可能是什么特征通过线性组合出来的。慢慢的也就形成了概念。而棋感就是类比于这样的概念!许丞其二是增强学习。也就是说计算机可以开始通过自己和自己进行比赛的方式来提高自己的模型的精度。在此之前,所有的机器学习大部分都可以说是监督学习,人类在扮演着一个家长的角色,不停的告诉自己的计算机模型说这个是对的,这个需要修正。而现在在AlphaGo中,他们实现的无监督学习已经可以让人不用再去当家长,他们左右互搏也能学习到非常强的知识。这个结果非常可怕 许丞鼓励师目前不管是AlphaGo战胜李世石还是李世石战胜了AlphaGo ,这场人机大战对未来会有什么影响呢?我认为这个影响将会是巨大的。在此之前,虽然人工智能,机器学习也算是人尽皆知的词汇,但是此次新闻的传播影响之大,从来没有过让普通人去这么去关心人工智能的进展。这次人机大战可以说是影响力全面超越了卡斯帕罗夫深蓝大战那次。可以预言人工智能在接下来的几年之内一定是最热的热点话题,可以想象会有更多大学生投入到其中的学习和研究之中,也可能会让投资更多的聚焦于这个领域,更多的应用和场景,进而会产生让人不可思议的结果。许丞AlphaGo中的技术和算法显然不会只用于下棋,有意思的是历史上的每一次人机棋类大战都会带来更多新技术的进步。1989年我的老师李开复博士带着他的实习生在奥赛罗比赛中,利用统计学习打败了当时的世界冠军。也许当时对大部分的人来说,其实也仅仅是一次人机大战而已。然而那次之后,统计学习在非特定人语音识别系统开始发挥无与伦比的作用,传统的基于规则的语音识别系统被打得找不着北。现在我们能用到的siri, 自动电话应答机都是从此变为现实。更重要的是,从此之后,统计学习理论基本上统治了整个机器学习这个学科的所有研究方向,延续了差不多20多年。许丞今天,风水轮流转,曾经被认为没前途的神经网络技术卷土重来,通过深度学习的方式再次让人类在视觉识别,棋类竞技等项目上败给机器,重新占据了学术研究的焦点。这是一场计算机智能革命,这些比人机大战结果的更有现实意义。我相信,随着这些算法应用到计算机视觉,自动驾驶,自然语言理解等领域,AlphaGo及其带来的人工智能革命必将改善我们所有人的生活。