分享

《日知录》“从零开始”的阿尔法狗

 我执斋 2019-04-11
谢立章
廉作林刻
  有新闻报道称,阿尔法围棋教学工具(AlphaGo Tools)的开发已经成熟,“平民版”阿尔法狗的脚步离人们越来越近了。2016年,阿尔法狗曾以4:1击败世界冠军李世石,引起世人对人工智能的关注。2017年5月,阿尔法狗的新版本阿尔法元(AlphaGo Zero)又完胜世界围棋第一人柯洁,人们不禁感叹人工智能之强大。

  阿尔法元的开发团队DeepMind曾在《自然》杂志发表文章,披露了这个新版的人工智能程序是如何无师自通,成为迄今为止最强大的人工智能棋手的。

  众所周知,人工智能就是机器模拟人类,由此产生智能行为。第一代阿尔法狗也确实如此,它学习了人类高手的约16万场对决,每场对决走棋约为150步至250步。对于人类棋手而言,这是一生也不可能学完的。

  而新一代阿尔法狗的名字很有趣,多了zero这个单词。英文zero是零的意思,在这里表示它从零开始,从无到有。它从零开始,面对的只是一张空白棋盘。它无师自通,仅仅通过自学使自己的下棋技能得以提高。那么它是怎么做到的呢?答案就是强化学习算法。

  什么是强化学习?就是让机器在和环境交流中学习,进步。好比说,现在接到一个训练狗捡飞盘的任务:我们每次扔一个飞盘,希望狗可以把飞盘捡回来。面临的挑战是狗一开始并不知道这个任务,所以它可能会去捡也可能不会去捡。这个时候强化学习就派上用场了,我们给狗定一个奖惩措施,每一次狗去把飞盘捡回来的时候,我们就奖励它吃一块肉;每次它不为所动,我们就饿它一小时。训练一段时间之后,我们就可以得到一条会捡飞盘的狗。

  在围棋上,我们也采用类似的措施。不同的是,围棋程序采用老顽童周伯通的方法,进行左右手互搏。奖励惩罚措施不再是肉,而是用分数表示:赢的给1分,输的给0分。第一次互搏,左右手都不会功夫,没有招式,随机打。但是,即使是随便打,也会有一只手稍微厉害一点,那么我们就记下这只手使用的招式。然后,开始第二次互搏,这一次两只手的技术都有所提升,打斗精彩不少,最后还是会有一只手胜出。我们再次记住这个胜出的手所展示的招式,作为下一次“打架”的起点。通过不断的互搏,每一次互搏都会得到一个更强的招式!最终,我们就可以训练出一个超级强者——战胜人类棋手,对它们来说是不是很简单?

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多