分享

关注 | 与柯洁一战后,为什么说阿尔法狗是有“直觉”的?

 heaven张君峰 2024-05-16 发布于陕西

5 月 24 日,在新版本 AlphaGo 首战以 1/4 子微弱优势战胜中国围棋职业九段棋手柯洁之后,“AlphaGo 之父”DeepMind 创始人兼 CEO Demis Hassabis、AlphaGo 团队负责人 David Silver 在人工智能高峰论坛上详解了 AlphaGo 的研发并就“AlphaGo 意味着什么” 的问题进行了详细解答。

在了解Demis Hassabis与David Silver的专业观点之前,AI与机器人(dnbai2017)先带大家了解一下昨日AlphaGo 首战以 1/4 子战胜柯洁,到底是怎么一回事儿?

阿尔法狗是有直觉的

1/4子是中国规则下最小的胜负差,如果是人类对决,通常可以说是运气不佳,或者说是憾负,因为如此小的胜负差,在人类对决中,确实很多时候有一点运气的成分。但这次,真的不是,所以围棋界也很清醒,没有人会说阿法狗赢了1/4子很侥幸,没有人会说柯洁只差了一点点,因为事实不是这样的。

图片

实际上中盘结束,这个比赛的结果已经没有争议了。(围棋分序盘,中盘和官子三个阶段,当然并不是泾渭分明,但一般都会这样形容对局进程)。一个恐怖的事实是,在今年元旦master横扫人类60盘棋谱中,人类无法判定,机器的官子实力到底如何,为什么呢?没有一盘是官子定胜负的。

柯洁在官子阶段的奋起直追,其实是alphago安全运转,不断退让,在元旦的60盘棋中,这样的场景也不断出现过,计算机追求胜率,而不是胜差。所以领先较多的时候,宁可下损一点的棋,比如无棋自补,也要把可能的风险扼杀掉。计算机的逻辑是,在保持领先的基础上,减少了对手翻盘的可能。用专业人员的点评就是,领先越来越小,胜率越来越高,直到最后1/4子的优势,但你却绝对找不到任何翻盘的机会。

关于阿尔法狗“更追求胜率”下法,Demis Hassabis用了一个更有人情味的解释:直觉。“AlphaGo 已经展示出了创造力,也已经可以模仿人类直觉了。在过去一年,我们继续打造 AlphaGo,我们想打造完美的 AlphaGo,弥补它知识方面的空白。因为在与李世石的比赛中,它是有缺陷的。在未来我们能看到人机合作的巨大力量,人类智慧将通过人工智能进一步放大。强人工智能是人类研究和探寻宇宙的终极工具。”

听到“直觉”这两个字,我们也许会觉得玄乎,觉得在吹牛。但熟悉围棋的朋友就知道:围棋不像象棋等游戏靠计算,而是靠直觉。围棋中没有等级概念,所有棋子都一样。围棋是筑防游戏,因此需要盘算未来。小小一子可撼全局,“ 妙手 ” 如受天启。

阿尔法狗已经是“阿老师”

这么一想,这个“直觉”便是“预测未来”了。技术控们再看看 AlphaGo 如何进行训练的吧,或许会有一些启示:

围棋对于机器的难点之一是评估程序的撰写。而 AlphaGo 团队用两种卷积神经网络去完成:策略网络和估值网络。策略网络的卷积神经网络用于决定下一步落子可能的位置,价值网络用于评估当前棋局获胜的概率。

图片

为了应对围棋的巨大复杂性,AlphaGo 采用机器学习技术,结合了监督学习和强化学习的优势。通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。

然后,训练出一个价值网络(value network)对自我对弈进行预测,以 -1(对手的绝对胜利)到 1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而 AlphaGo 将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。

最后,新版的 AlphaGo 产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。就是说,阿尔法狗其实是在自己“训练”自己,自己给自己当老师。

图片

“阿老师”与柯洁一战,柯洁表现出了很高的水准。但四分之一子的劣势并非说明他的实力与“阿老师”相当,而是“阿老师”见好就收——赢多少也是赢,索性赢你一点点即可。能把优势很长时间内控制成四分之一子,这是人类根本就达不到的水平。对此,“阿老师”给大家造成一个错觉,它似乎是一台很通人性的机器,它懂得尊重对手。当然前文已经解释,并不似这样的。

“阿老师”的很多下法,颠覆了很多所谓的定式,极大地开拓了棋手的思维。柯洁称,他在围甲联赛中,看到绝大数人为了眼前可能受损的几目棋的利益,而面对同一招棋用着同一个定式,着实感到乏味,甚至“想吐”。他说,“我宁愿损几目棋,也要尝试新的下法。”也难怪,柯洁在赛后称“阿老师”为“围棋上帝”,因为他们的围棋理念“不谋而合”。

阿老师”将在接下来将与人类棋手花式竞技

按照比赛日程,柯洁与“阿老师”另两盘棋的争夺,将于5月25日和27日进行。而26日上午进行的配对赛和下午的团队赛,变得更吸引人。

所谓配对赛,是两位棋手分别与“阿老师”组队进行PK,挑战棋手如何去理解人工智能的独特风格并与之合作。古力就是参与者之一,他说:“能通过亲自对局,第一时间感受它的想法,和打谱是不一样的。合作的心理感受将有所不同,希望能够和它共同探索,突破棋手的思维惯性。”

相比之下,之后进行的团队赛仍是人与人工智能的比拼,不同的是人类组团上阵。几名棋手一起研究如何应战,相对个人而言会减少犯错误的机率,但弊端也很明显,就是难以形成统一的想法。不出意外,团队赛的时间会比较长,场面或许还很热闹,值得期待。

阿尔法狗除了会下棋,还能干嘛?

除了能解决围棋问题外,DeepMind还用人工智能去解决了雅达利的“打砖块”游戏。在人工智能学习300次游戏后,AI已经能够掌握游戏规则。在500次游戏后,AI已经发现了这款游戏的最优解决方案。

图片

哈萨比斯说,为何计算机在解决围棋问题时遇到困难,是因为围棋的复杂度让穷举搜索难以解决。要解决围棋需要克服两大难题:一是很难写出写出评估程序以判定围棋谁赢,二是围棋的搜索空间太过庞大。

哈萨比斯以上个世纪打败国际象棋世界冠军的卡斯帕罗夫的“深蓝”作为对比,他认为“深蓝”属于一种弱人工智能。围棋和国际象棋的差距在于需要棋手的直觉,需要盘算未来,不能像象棋只要了解当下的情况做出决定;而且围棋的棋子没有等级,一个棋子可以牵动全局。为此谷歌为AlphaGo开发出策略网络和估值网络来解决围棋问题,策略网络帮助AlphaGo减少搜索的空间,估值网络用来判定计算机的胜率。

至于人工智能是否“杀死”了围棋这项运动,哈萨比斯用实际数据打消了这一疑虑。去年AlphaGo战胜人类顶尖棋手李世石反而帮助了围棋这项运动的普及,那场比赛吸引了全球2.8亿观众,棋盘的销量也增长了10倍。

哈萨比斯认为AI和人类不是竞争关系,AI是人类的一种工具,就像望远镜一样可以帮助人类探索世界,人类的智慧在利用AI工具后将会被放大。

最后,哈萨比斯展望了AI在围棋之外的应用领域,比如在教育、医疗、智能手机等方面。实际上,DeepMind已经用AI帮助谷歌解决了一些实际问题,他们的AI程序帮助谷歌的数据中心节约了15%的能源。

谷歌表示,2014年的用电量为4402836兆瓦时,相当于366903户美国家庭的年平均耗电量。这些耗电量中的很大一部分来自数据中心,而数据中心是谷歌网络服务和移动应用的基础。

将耗电量减少几个百分点对谷歌来说将在财务上带来巨大帮助。根据美国能源信息管理局的数据,在美国,电价通常为每兆瓦时25至40美元。因此,如果数据中心能耗降低10%,那么在几年时间里谷歌就可节约数亿美元。

谷歌此前也曾在数据中心里应用机器学习技术。2014年谷歌表示,正使用神经网络系统去预测能耗随时间的改变,从而更有效地安排设备。

DeepMind的工作在此基础上更进一步。该公司的软件能调节数据中心中设备的运行方式,提高能耗效率。哈萨比斯表示:“这控制了数据中心里的约120个变量,包括风扇、制冷系统,以及窗户和其他设备。”

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多