分享

李开复新书内容抢先看:最精明的德扑大师也可能被AI的小花招蒙骗

 昵称535749 2017-04-02

孙然 · 16小时前 · 公司新闻

李世石与AlphaGo的围棋大战过去一年了,如今德扑AI又将带给我们什么?
李开复新书内容抢先看:最精明的德扑大师也可能被AI的小花招蒙骗

相对于大部分投资人,李开复对AI有种特殊的情结。

在这一波的人工智能创业浪潮中,李开复扮演的角色,近乎于摇旗呐喊的行业代言人,希望吸引更多创业者投身其中。

相对于大部分投资人,他对人工智能有种特殊情结。在卡内基梅隆大学攻读计算机学博士期间,他的研究领域也与AI相关。任职微软时期,李开复在自然交互式软件及服务部门,研究语音、自然语言、搜索等前沿技术。

毕业20年多年后,他邀请母校卡耐基梅隆大学AI扑克Libratus发明者Tuomas Sandholm,携扑克AI“冷扑大师”与中国德扑高手展开较量。这场赛事将在4月6日至4月10日期间举办。“冷扑大师”士气正盛,今年1月,它刚取得了匹兹堡一场人机扑克对战的胜利。

另外,李开复,和创新工场AI工程院副院长王咏刚合著的新书《人工智能》,也将于4月18日预售。他们如何看待人工智能与人类棋牌大师的较量?

36氪独家获取了书中关于围棋及德扑人机大战内容的节选:

 

李开复新书内容抢先看:最精明的德扑大师也可能被AI的小花招蒙骗

创新工场李开复和王咏刚合著新书《人工智能》

 

棋牌人机大战:人工智能挑战人类智力

AlphaGo带给人类的启示

2016年3月,新浪体育等媒体现场直播了李世石与AlphaGo的第五盘棋赛。绝大多数围棋界人士和人工智能界的科研人员都没想到,围棋程序会在如此短的时间内取得质的突破--计算机在两年内做到了可能需要20年才能做到的事,这样的速度真的让人震撼。

AlphaGo横空出世之前,围棋界的观点也大致相同。因为国际象棋与围棋的复杂度相差甚远,1997年IBM深蓝在国际象棋棋盘上战胜人类棋王的故事并不足以让围棋高手信服。而且,这么多年来,围棋AI程序的研发一直举步维艰。早期基于规则的围棋程序,比如中山大学陈志行教授1990年代研发的“手谈”,基本上只能和围棋初学者过招。直到2006年后,随着蒙特卡洛搜索算法在围棋对弈软件中的应用,MoGo、Zen、CrazyStone等程序的棋力才得到了突飞猛进的提高,在国际对弈平台KGS上,2006到2012年间,主流围棋对弈软件的棋力从业余2级猛升到业余5段甚至业余6段,但也就此停滞不前。

AlphaGo出现前,围棋界专家对围棋对弈软件棋力的评估基本比较一致,大多认为最好的计算机程序已可以和业余高手过招,但和职业选手之间,还是有着本质的差别。

在今天的围棋界,业余高手和职业高手之间存在2子以上的明显差距,通常,这个差距是职业选手从童年开始,用十年以上的时间刻苦训练得来的,业余选手极难弥补。另一方面,在计算机科学界,懂得蒙特卡洛搜索算法原理的人都知道,这种算法主要是利用抽样统计来提高搜索效率,单用此算法确实难有提高空间。这是AlphaGo出现前,围棋界和计算机科学界两方面都不敢奢望人机大战即将到来的根本原因。

是深度学习改变了一切。使用深度学习并结合蒙特卡洛搜索的AlphaGo已注定被写入历史。AlphaGo问世的第一年内,其实进入大家视野的是三个版本:5:0击败樊麾的内测版本,4:1击败李世石的版本,以“Master(大师)”网名60:0快棋挑落中日韩高手的版本。三个版本演进脉络明显,每次迭代都有重大升级。最后这个网名为“Master(大师)”的版本也基本是2017年AlphaGo挑战柯洁的一个“预览版”。

从围棋角度说,AlphaGo最震撼的是计算机在人类传统认为极其玄妙的、电脑无法掌握的“大局观”上突飞猛进,远远将人类选手甩在身后。电脑计算“大局观”的方式,和人类培养“大局观”的思路,有根本的差别。人类没可能在这方面赶上电脑。和樊麾对局的棋谱基本上还看不出AlphaGo的大局观有多强,和李世石对局就下出了聂卫平赞不绝口的五路肩冲,到了Master的60局,大局观体现在两个地方:

第一,从始至终对局势的把握,比如第60局古力用AlphaGo的思路对付AlphaGo,把中央撑得很满,但AlphaGo不紧不慢,总是恰到好处地保持胜势。

第二,AlphaGo已经深刻影响人类对布局的思考,大飞守角之类的变化迅速被人类棋手模仿,这和当年深蓝问世后,国际象棋的布局革命是一样的。

基于AlphaGo的思路,其他围棋软件的水平也突飞猛进。仅2017年初就有日本研发的DeepZenGo和腾讯人工智能实验室开发的“绝艺”达到了人类九段或以上的水平。腾讯“绝艺”不仅面对人类高手保持了绝对优势,还战胜了AlphaGo以外的各路围棋软件,取得了2017年UEC杯计算机围棋大赛的冠军。

以后AI和AI之间的竞赛,应该会不断促进AI提高。人类虽望尘莫及,但可以不断从AI中学习新的思想。

从人工智能技术的角度说,AlphaGo用的是AI领域应用非常普遍的算法:深度学习、蒙特卡洛算法、增强学习等。可以说,机器视觉相关的深度学习技术,包含环境-决策-反馈的智能系统,里面都有AlphaGo的影子。当然,直接的代码实现层面,肯定没有复制、粘贴这样直接借用的关系,因为AlphaGo的深度学习模型毕竟是围绕围棋的特征建立的。

那么,当人机大战烟尘散尽,当公众的热情回归理性,AlphaGo究竟为我们人类带来了什么?AlphaGo带来的,仅仅是棋盘上的一张张棋谱,还是公众对人工智能的重新认知,或是人类与机器命运的关键转折点?

其实,AlphaGo带给人类的,更多是一种对未来的警示:如果计算机可以在两年内实现大多数人此前预测要花20年或更长时间才能完成的进步,那么,还有哪些突破会以远超常人预期的速度来临?这些突破会不会超出我们对人工智能的想象,颠覆人类预想中的未来?我们已为这些即将到来的技术突破做好准备了吗?

无论是专业人士还是普通公众,AlphaGo的出现给每个人提供了一个最好的理由,让我们有机会重新思考:到底什么是人工智能?人工智能之于人类的意义是什么?人工智能与未来人类的关系到底会怎样?人工智能真的会在未来挑战人类吗?

德州扑克:开启新世界的大门

围棋是一项讲究计算和形势判断能力的游戏。而德州扑克就非常不同,讲究的是在多人博弈中,避免人性贪婪、恋栈等弱点,并将科学的概率统计与灵活的实战策略很好地配合起来。人工智能已经在围棋领域取得历史性的突破,那么,在德州扑克的世界里,人工智能的表现又如何呢?

在围棋、象棋等游戏中,人工智能可以和人类选手一样,在每一步决策前获得棋盘上的全部信息。这种限定规则,随时可以获取全部信息的游戏,我们可以称之为“完整信息的博弈游戏”。而在德州扑克中,人工智能和人类选手通常无法在特定时刻获得有关游戏的全部信息。比如,在德州扑克中,你无法知道对手的底牌是什么,你也不知道发牌员发出的下一张牌是什么,在这类“不完整信息的博弈游戏”里,人工智能必须像人一样,根据经验或概率统计知识,猜测对手底牌和下一张牌的可能性,然后再制定自己的应对策略。

显然,对于实现人工智能算法而言,不完整信息的博弈游戏在技术难度上要大得多。卡内基梅隆大学的研究者就选择了德州扑克作为他们攻克此类问题的出发点。

来自卡内基梅隆大学的托马斯·桑德霍姆(Tuomas Sandholm)教授与他的博士生诺姆·布朗(Noam Brown)最早开发了一款名为Claudico的德州扑克程序。Claudico是一个拉丁文单词,对应于德州扑克中的一种特别的策略——平跟(limping),指的是翻牌之前,选择跟大盲注而不加注的策略。平跟这种策略,在人类德州扑克比赛中,使用的频率并不是很高,但据托马斯·桑德霍姆介绍,计算机通过学习发现,使用这种策略有许多好处。值得注意的是,托马斯·桑德霍姆的团队在研发德州扑克程序时,主要不是向人类职业选手学习打牌技巧,而是让计算机通过自我训练,自己寻找最好的方法。

Claudico从2015年4月到5月,在匹兹堡的河流赌场与人类选手同台竞技,在无限制投注的一对一比赛中,轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是重复牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。这次比赛,AI似乎还很稚嫩。比赛进行过半,人类就领先Claudico大约46万个筹码。最终,人类选手以大约73万个筹码的优势赢得了比赛。

Claudico在2015年初出茅庐的这次比赛以失利告终。这个剧情,有些像1996年IBM深蓝输给卡斯帕罗夫的那一次。与Claudico交过手的道格·波尔克说,Claudico 与人类的打牌方式非常不同,“人类选手的下注数量可能是彩池的一半或四分之三,而Claudico有时只吝啬地以彩池的十分之一来下注,有时则以彩池的十余倍来下注。人类可不会用19000美元的下注去博取区区700美元的彩池。”[1]

2015年的失利并没有让托马斯·桑德霍姆教授灰心。2017年1月,教授带着一个名为Libratus的新版本德州扑克程序卷土重来,再战匹兹堡的河流赌场。像上次一样,新版本程序的名字Libratus也是一个拉丁文单词,对应于程序使用的均衡(balanced)策略——这一策略源自数学家纳什定义的一种完美博弈的模型。

托马斯·桑德霍姆教授解释说,“在存在两名玩家的零和游戏中,如果有一人不遵从纳什均衡的策略,那么两名玩家获得的收益都将受损,但我们的系统不会这样。在此类游戏中,以纳什均衡的方式思考是最安全的。遵从规律的玩家将合理地获得受益,同时在任何地方都不会被对手利用。”[2]

这一次,比赛规则和2015年那次基本一致,比赛时间从13天延长到20天,仍基于无限制投注的规则,Libratus轮流与人类高手一对一比赛。人类团队计算总分,与Libratus的总得分比较胜负关系。不同的是,升级后的Libratus程序就像围棋棋盘上威风八面的AlphaGo一样,一上来就对四名人类高手形成了全面压制。AI从比赛第一天就一路领先,第6天领先优势虽一度缩小,但从第7天后,人类就再也没有机会弥补巨大的差距了。最终,Libratus领先的筹码数量达到惊人的176.6万美元!在德州扑克领域的人机大战中,人工智能完美胜出!

连续参加了2015年和2017年两次人机大战的人类德州扑克高手Dong Kim说,他在这次比赛全程充满挫败感——其实他已经是四位人类高手里面,对战成绩最好的那个了。两年前曾经击败计算机的Dong Kim在2017年的比赛刚刚过半时就直言:“人类已经没有真正获胜的机会。”[3]

那么,从Libratus大败人类高手的德州扑克对局中,我们能看到哪些人工智能的发展规律呢?

Libratus所使用的技术策略非常成功。AI利用增强学习技术,从自我对局中学习最优的扑克玩法,而避免从人类的既定模式中学习经验,这是非常重要的一点。当然,目前Libratus的算法还只适用于无限制投注的一对一比赛。如果将比赛扩展到更常见的多人制比赛,Libratus面对的挑战会更大一些,还需要进行策略上的升级与调整。

计算机在德州扑克领域取得的成功,令人工智能研究者都非常振奋,这主要是因为以下两个原因:

·      和围棋不同,在德州扑克的牌桌上,人工智能与人类选手一样,都只能看到部分信息。这种情况下,没有所谓的唯一的、最佳的打法。

·      Libratus基本是从零开始学习德州扑克策略,且主要依靠自我对局来学习。这对利用人工智能解决更为广泛的现实问题意义重大。

那些担心人工智能威胁的悲观主义者可能会从Libratus的胜利中看到更为现实的风险。比如,机器曾在比赛中用大赌注和新策略吓退、蒙骗过最精明的人类牌手,这些方法也许会被精明的商人用于人类的商业谈判。一旦这些人工智能算法被犯罪组织利用,是否会出现灾难性的后果?担心出现超人工智能的人还会进一步追问,一旦机器有了自我意识,机器是否会像德州扑克牌桌上的AI算法一样,用各种策略诱骗、恐吓人类呢?

乐观主义者则更多地看到Libratus的算法本身对于人工智能帮助人类解决实际问题的巨大价值。如果机器能够在自我学习中不断完善对于一种特定策略的掌握程度,能够在不熟悉或缺乏全部信息的环境中不断试错并积累经验,那么,机器显然可以胜任更多的人类工作。比如,机器可以帮助人类制定更为复杂的医疗计划,可以在人类感到难以决策的领域,比如商业活动、城市规划、经济调控甚至战争指挥等,充当人类的“参谋”。也许,未来每个人都可以依靠强大的计算机和人工智能程序,成为运筹帷幄、决胜千里的战略家。

[1] Man Proves Greater Than Machine, https://www./news/2015/05/man-is-greater-than-machine-players-win-732-713-against-ai-p-21508.htm.

[2] 机器之心(微信公号),2017.1,重磅 | 德扑人机大战收官,Libratus 击败世界顶尖扑克选手。

[3] 量子位(微信公号),2017.1,德扑人机大战落幕:AI赢了176万美元。这里是一份超详细的解读。

36氪 APP 下载
广告
原创文章,作者:孙然,如若转载,请注明出处:http://36kr.com/p/5069184.html

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多