《日知录》“从零开始”的阿尔法狗

我执斋 2019-04-11

展开全文

谢立章

廉作林刻

　　有新闻报道称，阿尔法围棋教学工具（AlphaGo Tools）的开发已经成熟，“平民版”阿尔法狗的脚步离人们越来越近了。2016年，阿尔法狗曾以4：1击败世界冠军李世石，引起世人对人工智能的关注。2017年5月，阿尔法狗的新版本阿尔法元（AlphaGo Zero）又完胜世界围棋第一人柯洁，人们不禁感叹人工智能之强大。

　　阿尔法元的开发团队DeepMind曾在《自然》杂志发表文章，披露了这个新版的人工智能程序是如何无师自通，成为迄今为止最强大的人工智能棋手的。

　　众所周知，人工智能就是机器模拟人类，由此产生智能行为。第一代阿尔法狗也确实如此，它学习了人类高手的约16万场对决，每场对决走棋约为150步至250步。对于人类棋手而言，这是一生也不可能学完的。

　　而新一代阿尔法狗的名字很有趣，多了zero这个单词。英文zero是零的意思，在这里表示它从零开始，从无到有。它从零开始，面对的只是一张空白棋盘。它无师自通，仅仅通过自学使自己的下棋技能得以提高。那么它是怎么做到的呢？答案就是强化学习算法。

　　什么是强化学习？就是让机器在和环境交流中学习，进步。好比说，现在接到一个训练狗捡飞盘的任务：我们每次扔一个飞盘，希望狗可以把飞盘捡回来。面临的挑战是狗一开始并不知道这个任务，所以它可能会去捡也可能不会去捡。这个时候强化学习就派上用场了，我们给狗定一个奖惩措施，每一次狗去把飞盘捡回来的时候，我们就奖励它吃一块肉；每次它不为所动，我们就饿它一小时。训练一段时间之后，我们就可以得到一条会捡飞盘的狗。

　　在围棋上，我们也采用类似的措施。不同的是，围棋程序采用老顽童周伯通的方法，进行左右手互搏。奖励惩罚措施不再是肉，而是用分数表示：赢的给1分，输的给0分。第一次互搏，左右手都不会功夫，没有招式，随机打。但是，即使是随便打，也会有一只手稍微厉害一点，那么我们就记下这只手使用的招式。然后，开始第二次互搏，这一次两只手的技术都有所提升，打斗精彩不少，最后还是会有一只手胜出。我们再次记住这个胜出的手所展示的招式，作为下一次“打架”的起点。通过不断的互搏，每一次互搏都会得到一个更强的招式！最终，我们就可以训练出一个超级强者——战胜人类棋手，对它们来说是不是很简单？