分享

5名顶级人类职业选手不敌2个CPU的AI,多人德州扑克也被拿下了

 板桥胡同37号 2019-07-18

原文作者:Douglas Heaven

德州扑克人工智能(AI)击败了五名人类对手,这让AI距离解决现实问题更近了一步。

人工智能(AI)再次提高了赌注。德州扑克机器玩家Pluribus在德州扑克最流行的一种变体——六人无限注中击败了顶级人类职业选手。这是AI首次在玩家人数超过两人的游戏中击败顶级人类选手。

多人德州扑克也被AI征服了。

来源:Alexandre Rotenberg/Alamy

虽然从二人增加到六人看起来只是多了几个人,但实际上却有本质差别。”纽约大学研究博弈和AI的Julian Togelius说,“‘多人’是至今为止未曾研究过的游戏要素。”

此前,Pluribus背后的团队构建过一台叫做“Libratus”的 AI,并在一对一的德州扑克中击败了职业选手。Pluribus是基于Libratus的升级,并且它打比赛需要的计算力要少很多。在连续12天超过10000手的比赛中,它击败了15名顶级人类玩家。“很多AI研究者原本认为我们的技术是不可能做到的。”来自卡内基·梅隆大学和Facebook人工智能研究院的Noam Brown说。他与其卡内基大学的同事Tuomas Sandholm一起开发了Pluribus。

其他AI也击败过人类选手,例如Libratus和DeepMind的围棋AI。它们证明了在二人零和游戏中,人类无法战胜机器。在这些场景中,一定是一人赢一人输,而博弈论提供了一种良定义的最优策略。

但是在有多位玩家,利益互相冲突,缺乏明确的输赢条件的时候,博弈论就没那么有效了——而现实生活中的难题大多属于这一类。Brown说,征服多人德州扑克就意味着Pluribus为未来AI解决这类复杂问题奠定了基础。他认为这一成果有助于推动其他应用发展,例如机器谈判、侦查欺诈以及自动驾驶。

多一个玩家,多一层复杂性

为了玩好六人德州扑克,Brown和Sandholm大幅改变了Libratus的搜索算法。大部分游戏AI都是沿着决策树向前搜索,寻找给定局面下的最优行动。Libratus会搜索到游戏终局,才会选择某个行动。

但是玩家数量增加所带来的复杂性让这种策略变得不再可行。德州扑克要求使用隐藏信息进行推理——玩家必须根据此前的下注来思考对方可能会有什么牌,对方又认为自己有什么牌,然后才能制定策略。但是增加玩家会让选择行动变得更为困难,因为这样就必须思考更多的可能性。

关键突破在于开发一种算法,让Pluribus可以只向前看为数不多的几步就做出决策,而不需要看到游戏终局。

和DeepMind的围棋AI AlphaZero一样,Pluribus使用了一种强化学习算法从零开始自学。它先随机打,等发现哪些行动可以赢更多钱之后就会不断优化。每手之后,它会回顾自己打得如何,并检查哪些地方采用不同的行动就可以赚更多的钱,例如某处跟注应该改成加注。如果更改策略会带来更好的结果,之后它就更可能采取更优的行动。

和自己打了上万亿手牌之后,Pluribus就训练出了一种可以在比赛中使用的基本策略。在每个决策点,它会将牌局和手中的基本策略进行比较,并向前搜索几步看各个行动会导致什么结果之后它会检测是否能有更优的策略。由于Pluribus是自我训练,没有人类输入,因此它会用一些人类玩家不太可能使用的策略。

AI的玩具箱

Pluribus的成功很大程度上是因为它的高效。它打牌的时候只使用2个CPU。与之相比,DeepMind最早的围棋AI在首次击败顶级人类玩家的时候使用了将近2000个CPU,而Libratus使用了100个CPU。自己对战的时候,Pluribus一手只需大约20秒——这比人类职业玩家大约要快一倍

游戏是一种公认的可以有效检测AI进展的方式,因为AI可以和人类顶级玩家直接对决。如果获胜的话,就可以名正言顺地被誉为“超人”。但是Brown认为,AI已经要离开自己的玩具箱了。“这是德州扑克里面最后的一项挑战。”他说。

但Togelius认为AI研究者和游戏还有一段路要走。“还有很多未被探索的领域。”他说。掌握了超过一种游戏的AI并不多——这要求AI有某种综合能力,而非专精一技。此外, AI也不应局限于当玩家,“还可以设计游戏,这对AI会是一项很不错的挑战。”Togelius说。

原文以No limit: AI poker bot is first to beat professionals at multiplayer game为标题

发布在2019年7月11日《自然》新闻上


Nature|doi:10.1038/d41586-019-02156-9

版权声明:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多