会,第四局棋局就遇到这个问题。
李世石很精妙的一步棋,AlphGo先是预判人会走这个棋的概率会大概是在千分之零点零零七,基本觉得人不会走这步棋,所以实际上AlphGo就没有去研究这步棋往下之后可能会带来的变化,就没有找到后面的答案,就忽略了这步棋。
恰巧李世石走了一步它没有想到的棋,这是AlphGo在深度学习剪枝的过程当中,忽略掉的一件事情,变成了李世石的一个深击。
但阿尔法狗(AlphGo)能赢其实不止这两个算法,其实还有重要的第三个算法,我们称之为“强化学习”。
这个开创性的做法是,我试图让机器很傻地走到底,就是两个机器互相玩,玩到最后。然后我们只需要把规则告诉机器,说这个机器赢了,那个机器输了。
然后机器它就开始倒着往回去计算,在赢的路径里面,它会做一个参数的加权,输的走法上做降权。然后反复去做迭代,这样机器它内部的算法更接近去赢。
这样就摆脱了我们需要告诉机器的每一步的答案,而是只需要给它一个目标,赢或者输,我把这个学习称之为“强化学习”。
所以阿尔法狗(AlphGo)是第一次把这三种算法引入到一个系统。
今天的主流是深度学习;空间搜索是更老的算法,用进去了;然后强化学习就是给了你最终的一个目标,但是不用人提供答案,而机器自己去通过目标(输了/赢了),去倒推回来我自己的每一步走棋走的好不好。把这样的一个算法放进去,构成了阿尔法狗(AlphGo)完整的走法。