分享

完美的一手

 你知道我很纠结 2016-03-08

Harry Qin,江湖人称秦爷,现为国内某大学计算机系教授,但骨子里是个没有时空感、既纯真、又玩世、还浪漫到无以复加的人文主义者。工科教授中最棒的散文家(之一),散文家中编程最棒的教授(没有之一)。一起来读读作为计算机研究者的他,对于即将到来的人工智能与李世石的世纪围棋大战是怎样的看法。



 

川端康成的感觉  


川端康成坐在返回轻井泽的火车上,有些郁郁寡欢。那是1938年,川端受一家报社邀请,成为秀哉名人隐退对局的观战记者。对手是与吴清源共同推动现代围棋新布局的木古实。对局陆续下了半年,中间秀哉名人染恙,不得不中断了一阵子。川端担忧名人的健康,乘车返家时心情沉重。 

 

车上有一名高壮的美国人,看到川端携带的磁力棋盘,邀请川端对弈。会下围棋的西人至今仍不多,那时更是凤毛麟角,棋艺自然不怎么高明。川端让六字也连赢了几局。让川端奇怪的是这个美国人对围棋的态度,输了,满不在乎,不论输几局,也都无所谓,周围再多人围观,也神态自若。 

 

对围棋有深厚感情的川端先生将他此时的感受写在了小说里: 

 

“围棋对于西方人来说,也许不太合适吧。一般来说,西方人下围棋,缺乏围棋手的气质。日本的围棋,已经超出了娱乐和比赛的观念,成为一种艺术。它贯穿着自古以来东方的神秘色彩和高雅精致,我同美国人的对局过程,也感到这个国家没有围棋传统。” 



这部小说叫做《名人》。 




武宫正树的棋谱 

 

作为一个爱好围棋的东方人,我至今仍然有类似川端先生当时的感觉。会下棋的西方人越来越多,国际大赛为了推广这一人类最古奥也最复杂的游戏,也时常给欧美选手发放外卡。但几乎所有顶尖围棋高手仍然集中在东亚地区,欧美选手即使参加比赛,也是一轮游。 

 

西方人不懂围棋艺术,可是他们醉心技术。 

 

去年10月,他们终于推出了一个厉害的选手,AlphaGo,不但赢了职业棋手,更要向顶尖棋手发起挑战。从理论上讲,它对围棋的“态度”也颇似那个跟川端对弈的美国人,不断地训练和对弈,不计输赢,从中汲取教训提高水平。它没有围棋传统,甚至没有(或者说很少)围棋逻辑,只是靠记忆和概率演算,以及每天成千上万的对局锤炼。它也没有,成为顶尖棋手---像吴清源、李昌镐、李世石、古力---所需要的那么一点点“天赋”。 



 

靠技术击败艺术。八九十年代,这是韩国棋手崛起的原因。日本人囿于太多的传统和规矩,弥漫在棋盘艺术气息,淡化了胜负,逐渐在围棋三国杀中落后。围棋美学家大竹英雄宁愿损失目数,也不愿将棋走成愚形;宇宙流武功正树执着于布局的行云流水和厚势的驾驭,不愿意下俗手赢棋,虽然这让他输掉了很多本该赢的棋;“前五十手天下第一”的藤泽秀行先生说“本来能杀的棋不杀,即便是胜利了也称不上真正的胜利者”。韩国棋手可不管这些,从此有了所谓“愚型的妙手”,“四角穿心”,“忍让再忍让,安全运转优势至终局”。 

 

职业棋手赢棋第一固然可以理解,然而围棋好像也渐渐失去了一点点美感。秀哉名人拖着病痛的身体也要完成那盘隐退棋局,只因要在棋盘上留下完美的棋谱,“只要还下这盘棋,我的病就不会好,我常想,如果把这盘棋扔在这儿,我就舒服了,可是我不能做出对艺术不忠的事情。” 

 

赵治勋的胜率比武功好得多,但他有一次开玩笑对记者说: “武功先生的棋谱会流芳百世的,我的棋谱恐怕要遗臭万年吧。” 围棋对人工智能来说是科学问题,但在中国和日本的传统文化里,它有着超乎寻常的美学意义。 

 



AlphaGo的原理 

 

AlphaGo的原理其实很简单,主要依赖于大数据学习,模仿人类高手的招式,依概率找到最好的一手。它在多数情况下不知道为何这样下,只是知道,根据已有的经验,这样下赢棋的概率较大。 

 

它不懂得势、厚、薄,更不懂得脱先、弃子、转化、保留、试应手。就像棋手们对神经网络、深度学习、加强学习、蒙特卡罗树搜索一知半解,我疑心许多围棋智能软件的开发者也基本不理解这些围棋里耳熟能详的概念。 

 

AlphaGo用蒙特卡罗树搜索模仿人下棋时的思考过程:1. 当前局面,下哪些位置比较好,2. 如果下了这手,对手会如何应对,如此不断判断其后的演化,到一定程度,再进一步判断这一手的优劣。 

 

依此原则,如果想找到完美的一手,第一步就要考虑所有可以下子的位置,第二步对每一个可以下子的位置都要演化至终局,看谁胜谁负。可计算量太大了,黄山谷的名句“心似蛛丝游碧落”,像一个小飞行器在茫茫宇宙间寻找最佳着陆点,目前的计算机还应付不来。 

 

AlphaGo为了narrow down这个问题的规模,开发了两个网络。其一为选点网络(Policy Network, 有人直译为策略网络)。此网络通过对海量对局的学习,给当前局面下所有可能下子的位置给一个赢棋概率(或叫分数),其二为估值网络(Value Network),用来评估当前局面下的胜负概率。这两个网络共同构成一个蒙特卡罗树搜索系统,反复迭代搜索判断一手棋的价值,找到赢棋概率最高的一手。 

 

输给AlphaGo的樊麾二段评价说,AlphaGo的棋风就像李昌镐,精确、冷静、极少犯错。从原理上讲AlphaGo确实应该具有李昌镐的风格。马晓春说李昌镐是最稳定的棋手,每一手大概都有6-7分,其它棋手有时能下出更多8-9分的妙手,但也会下出2-3分的失招,这些棋一旦被李昌镐捉住机会,基本无法翻盘。AlphaGo正是通过大数据的训练和搜索,依概率检测出这些6-7分的棋由于没有围棋逻辑的调控,它很少下出让人赞叹的8-9分的棋,但也不会轻易下出2-3分的棋。这也是很多职业棋手评价AlphaGo的棋非常工整,极少犯错的原因。 

 

了解了这个机制,在计算机计算能力尚有限的情况下,我们可以想一些办法击败它。



 

 李世石的策略 

 

我不知道AlphaGo的实现细节与参数调控,但从逻辑上讲,李世石可以从以下几方面制定策略: 

 

  • 多下近期棋谱不曾出现的新手。虽然这5个月内,AlphaGo一定又学习了海量的棋谱,自然包括李世石的棋谱,但围棋复杂到了“千古无同局”的水平,他们有质量的对局来源也有诸多限制,这些少见的新手会增加AlphaGo的判断难度,影响其估值的准确。

 

  • 下出全局强关连的手段。根据已有棋谱,AlphaGo局部攻杀的算路十分惊人,极少犯错。但限于围棋的复杂度和计算能力,它恐怕还不易判断出一手棋对距其较远的局部的微妙影响。有人提出征子和引征,不过征子的局面过于常见,仅使用 Policy Network就足以下出正招。但如果在一角保留劫争变化,伺机在对角区域下出局部损手但会多出一两枚劫材,这样的手段AlphaGo恐怕很难判断,依概率很可能会下出局部好手但损失掉全局的劫材优势。

     

  • 长龙的攻杀。对杀的棋越长,规模越大,AlphaGo估值的难度就越大,特别是几块棋绞杀在一起。而这正是李世石的强项。不过从其对阵樊麾二段的棋谱看,它似乎会有意避免出现这种过于复杂的攻杀。 


  • 其余弃子,转化,腾挪也可适时使用,但不要抱着一举击溃它的想法,因为虽然它可能不懂这些棋的内在逻辑,但它多半“见过”,见过就知道怎么应付。公平地说,因为AlphaGo肯定会学习李世石的棋谱,李世石也可以去请教深度学习的专家,猜测AlphaGo的参数设定,赛前制定各种策略,让局势往自己有利的方向发展。 




 完美的一手 

 

是的,有一天,也许人工智能的能力强大到终于找到完美的一手,不幸的是,这也是一盘棋的第一手。贴目固定后,双方都没有失误的情况下,第一手就决定了棋局的输赢(或者贴目大到一定数目,先手必输)。围棋的乐趣将从此彻底消失。 

 

我们不会再像秀哉名人那样坐在棋盘前,完全沉浸在对完美棋谱的追寻中,身如蜩甲化枯枝,“周围生出习习和风,令人身心愉悦”;我们也不会在等待家人归来的夜晚,随手翻开一册吴清源全集,玩味一个定式的各种变化,随看随喜,闲敲棋子落灯花;我们从此再也无法想象,在曲径通幽,碧竹掩映的潇湘馆,这边厢紫鹃设几扭炉,涤杯投叶,宝鼎茶闲烟尚绿,那边厢黛玉陈枰布子,执谱凝思,幽窗棋罢指犹凉。 

 

完美的棋局就像完美的一生,所有的选择都是通向终局的唯一路径,没有后悔,没有失望,没有悲伤,可同时也没有了期待、梦想和快乐。作为计算机科学的研究者,我们欣喜的看到人工智能的快速发展,让生活变得更高效、更快捷,同时我们也应该学会识别生活里的美和趣,让它们存活,让我们知道另一种路径和别样的生活方式。也许,不完美的人生才是更值得过的,擦掉泪水,带着笑容,不断地探索未知的明天,追寻完美的自己,永无止境。 

 

3月9日,大战拉开帷幕,AlphaGo将会穷尽其从人类学来的知识,只为赢棋,我们希望李世石带着从秀哉名人到吴清源李昌镐这些人类最优秀的棋手的夙愿,给后世留下构思精巧、行云流水的棋谱。 

 

我们终将会输给你,但你可能永远也不会理解围棋的精神,以及她无以伦比的美丽。 


分享Office使用心得,讲述与Office的故事

请通过邮箱onenotewechat@outlook.com和我们联系!


点击最上方蓝色“微软云笔记”字样,或长按二维码,

关注微软云笔记公众号,

微信上的文字、图片、视频、链接、位置、甚至第三方应用的信息,OneNote公众号帮您永久一键保存。 

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多