分享

AI脱离人类的40天,它突破极限棋力凌驾地球所有智能

 黑猩猩表哥 2017-11-12


近年来流行的科技词汇,少有能像人工智能这样经久不衰的。虚拟现实、互联网+、物联网、无人机等曾经火爆的概念已经逐渐淡出人们的视野。而人工智能凭借着其广泛的应用场景和频频制造大事件的特殊能力一直坚守在科技领域的第一阵线。

 

在谷歌DeepMind的领衔下,人工智能总能以挑战人类博得全世界的大量关注。

 

从2016年3月第一次高调公开挑战李世乭,到化身“Master”横扫一众中国九段高手。再到今年完胜棋坛第一人柯洁后宣布退休,AlphaGo风光无限。相比之下,同样是科技巨头的Facebook,旗下专注VR领域的Oculars就显得黯淡得多。

 


虽然早前谷歌已经在宣布AlphaGo退休时表示会在今年下半年发表一篇论文公布具体的技术细节,但却没有料到论文发出时竟又再度震惊世人。

 

10月18日,DeepMind的一篇重磅论文登上Nature,介绍了更为强大的AlphaGo Zero(也称“新狗”或“阿法元”)。论文的标题为《无师自通学会围棋》,全文介绍了AlphaGo Zero令人惊讶的能力。

 

AlphaGo Zero左右互搏自我学习仅仅36个小时,就基本独自摸索出了围棋中比较重要的技巧,且棋力达到了当年对战李世乭的AlphaGov18的水平。训练72小时后,AlphaGo Zero与AlphaGo v18对战百盘无一落败,胜率达到了100%。



21天,是所谓的成功学理论里,能养成永久习惯的最短时间,实际上不过是外科医生统计出患者截肢接受残缺的平均时间,但这却足以让AlphaGo Zero的棋力提到到能击败柯洁的水平,与化身Master的AlphaGo版本相当。

 

最终,AlphaGo Zero花了40天就成为了地球所有智能中围棋实力最强的存在。与Master的百盘对弈中,AlphaGo Zero获得了89盘胜利,胜率接近90%。


以目前围棋界公认的权威方法ELO等级分*来评估,AlphaGo Zero的分数超过5000分,远远超越棋坛第一人柯洁的3664分。也难怪柯洁在微博上发出“人类太多余”的哀叹。

 

*注:ELO等级分制度是基于统计学的一个评估棋手水平的方法,1970年国际棋联正式开始使用等级分制度。目前已经推广至各类竞技比赛当中,包括时下热门的各种电子竞技游戏。



AlphaGo Zero的成功不仅仅出乎外界的意料,对DeepMind团队内部来说也是一大惊喜。

 

此前,DeepMind团队通过大量的人类的高水平棋谱来训练AlphaGo,这种做法的优势在于能较快地在前期提高AI的围棋水平,但后期也不仅仅依赖于对人类棋谱的学习,更多地采用了自我对弈的训练方式。


而AlphaGo Zero则采用了另一种策略,正如它的名字一样从零开始。研究人员只教授AI围棋的基本规则,让其自行对弈,随意尝试各种可能。

 


如果以人类的经验来看,旧版本的AlphaGo更符合“师傅领进门,修行在个人”,而类似AlphaGo Zero这种毫无章法的自学是不被看好的。


但结果着实出乎所有人的意料。AlphaGoZero像一个人类初学者一样,慢慢摸索出了各种重要的围棋技巧,包括打劫、征子、棋形等。

 

从结果上来看,AlphaGo Zero不仅迅速赶上了旧版本,更实现了新的突破,并且只用了4个TPU(谷歌设计的一种专用处理器)就实现了这样了不起的成绩,相比之下,一年前采用的AlphaGo仿佛来自上个世纪。



从学习速度和学习的深度上来看,人类几千年的智慧结晶似乎教坏了AlphaGo,名师高徒竟然不敌无师自通的晚辈。很显然,除去两者本身的差异,人类的教学显然出了问题。

 

受限于人类经验样本空间的大小限制,无论看再多的棋谱我们的决策往往都收敛于局部的最优解而不自知,反而是从零开始的机器学习能够突破这一局限。


如果说此前AlphaGo逼近的是几千年来人类思维框架里的最强,那AlphaGo Zero则跳出了人类思维的定式,更加接近围棋真正的极限。

 


但这一次的大新闻轰动世界的要点并不在于围棋实力的高地,而是提供了深度学习算法在摆脱人类经验与监督下的案例样本,对未来人工智能应用在缺乏人类经验的领域有非常大的意义。

 

人工智能并不是一个真正新兴的领域,在上个世纪就曾有过几次现象级的流行。但最终都因为算法瓶颈或无法解决实际应用的关系而停滞不前。

 

而此次DeepMind的尝试又让我们看到了人工智能新的一缕朝阳。DeepMind以Zero命名的最终版AlphaGo,是一次由繁入简的伟大尝试,也有可能是人工智能全新的一个零点。



不忘初心,方得始终。

 

*参考资料

TOM SIMONITE. THIS MORE POWERFUL VERSION OF ALPHAGO LEARNS ON ITS OWN. WIRED. 

AlphaGo Zero: Learning from scratch. DeepMind. 

陈君毅. Deepmind 团队最新力作:不需人类的 AlphaGo Zero,左右互搏练成 AI 版周伯通. Tech Orange. 


____________


作者系网易新闻·网易号“各有态度”签约作者

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多