分享

人工智能技术在棋牌中的应用“Pluribus”及其现实意义

 全球技术地图 2020-11-02

AI在棋牌类游戏的应用,将促进博弈决策的研究,以棋牌类AI应用为基础的相关AI博弈工具,在经济金融领域的风险预测、军事领域的战局预测等方向有着广泛的应用前景。

半个多世纪以来,棋牌类游戏一直是人工智能(AI)发展创新的舞台。利用AI在被视作智力游戏的棋牌中打败人类,也一直是AI研究所追求的目标。从1997年IBM的超级电脑“深蓝”击败国际象棋世界冠军卡斯帕罗夫,到2016年谷歌开发的AI机器人AlphaGo战胜围棋世界冠军李世石,AI在棋牌类比赛中屡获突破。2019年7月,卡耐基梅隆大学与Facebook公司共同开发的AI机器人“Pluribus”,在无限制德州扑克6人对决比赛中战胜5名专家级人类玩家,AI在德州扑克战场再下一城。

Pluribus概况

Pluribus与人类的比赛分为两种模式:1个AI与5个人类玩家和5个AI与1个人类玩家,Pluribus在这两种模式中都取得了胜利。而为了战胜人类,Pluribus在策略、算法和能耗上进行了多次优化。

Pluribus研发的核心策略是运用改进版本的蒙特卡洛遗憾最小化算法(Monte Carlo Counter factual Regret Minimization,MCCFR),通过自我博弈的方式学习。Pluribus首先随机地选择玩法,通过蛮力计算得到收敛的结果,并对这些行动拟合概率分布,使得其实力在不断自我博弈中逐步变强。在整个学习过程中,AI机器人和自己进行对战,不使用任何人类游戏数据作为输入。

算法上,为了解决6名玩家的额外复杂性,Pluribus整合了新的在线搜索算法,使AI能够在游戏中向前预测并决定下一步该做什么,这种机制被称为搜索功能。以往的棋牌类算法的每一步决策都需要计算到游戏结束,而在线搜索算法只需搜索前面的几步即可。此外,Pluribus还利用了速度更快的新型self-play非完美信息游戏算法。基于上述两种算法,使得凭借极少的处理能力和内存来训练Pluribus成为可能。

能耗上,研究人员使用一个64核的服务器,利用不大于512GB的内存,在8天时间里完成了Pluribus的自我博弈训练,其成本大约为150美元,同其他自我对弈的AI研究相比,成本极低。而且算法上的进步,让研究人员可凭借较少的资源消耗实现极大的性能提升。

扑克AI和其他棋牌类AI的对比

扑克AI与棋类AI的基本原理相同,都采用蒙特卡洛搜索树算法作为基本算法,不依赖人类所提供的策略,在不断迭代的过程中实现自我学习。不同的是,棋类游戏中的棋子都展现在棋盘上,结果种类有限,所有的结果都是可推算的,这种情况被称为“完美信息博弈”;牌类游戏中无法知道对手的底牌,含有隐藏信息,结果可能是多样的,导致其计算难度和计算量大大增加,被称为“不完美信息博弈”

棋类AI

棋类游戏包括西洋双陆棋、国际象棋、围棋等,比赛中所有的信息和决策公开,并且游戏对于玩家来说只有赢或输两种可能的结果,从某种意义上说,这使得训练AI变得更容易。棋类在理论上可通过计算机模拟出每一种可能的情况,从而进行完美信息动态博弈。这类完美信息博弈中AI机器人往往使用实时搜索。例如,当模型在决定下一步该如何走时,国际象棋AI通常会考虑以后的一些移动步骤,直到算法的前瞻到达深度上限。而围棋的棋盘变化可能性比可观测宇宙范围的原子总数还多,因此围棋AI主要通过深度学习技术训练用于判断结果输赢概率的价值网络,来增强AI对弈能力。

麻将AI

麻将AI的策略需要更多地增加得点的期望值,尽量增大和大牌的可能性,同时尽量避免对手的大牌点炮,这一打牌策略显然是有最优解的。为了有更大的可能性和大牌,AI需要通过手牌和弃牌池里的牌,计算进张(摸到有效牌)和鸣牌(吃、碰、杠)使手牌有进展的概率,进而计算和牌得分的期望值。目前最强的麻将AI机器人是日本东京大学开发的“暴打”。

扑克AI

以德州扑克为例,由于在游戏中,玩家无法获取已发生事件的全部信息(如对手的底牌等),因此这个游戏属于“不完美信息”(Imperfect Information)类游戏。德州扑克一直是人工智能领域最难以攻克的重大问题之一,因为和棋类游戏不同,扑克AI必须推理隐藏的信息,并慎重平衡自己策略。同时,相比棋类比赛扑克游戏中需要使用Bluff(吓唬)等更多游戏策略

在Pluribus之前,AI机器人曾在两个参与者的完美信息零和博弈中取得了多次引人注目的成功,但大多数真实世界中的策略交互都涉及隐藏信息,且并非两个参与者的零和博弈。Pluribus的成功表明,在复杂的多参与者场景中,基于自我博弈和搜索算法的AI能够获得很好的效果。

AI棋牌应用的现实意义

Pluribus提出了在大型状态空间、隐藏信息中有效地解决博弈论推理挑战的方法,所开发出的技术很大程度上独立于扑克领域,可用于大量不完美信息博弈。Pluribus处理的诸多问题,与真实世界中的通用问题相对应,“不知道对手的牌”对应现实中的“不完整信息”,“下注策略和由此带来的结果”对应现实中的“风险管理”,“确认对手的模式,并进行利用”对应现实中的“智能体建模”,“Bluffing(扑克中的恐吓技巧)”对应现实中的“欺骗”,“处理对手欺骗的牌”对应现实中的“不可靠信息”。

事实上,棋牌类游戏的本质是竞争和对抗,由游戏规则定义其目标(评价标准),玩家使用各种策略达成目标,其中涉及数量可观的博弈过程。AI在棋牌类游戏的应用,将促进博弈决策的研究。以棋牌类AI应用为基础的相关AI博弈工具,在经济金融领域的风险预测、军事领域的战局预测等方向有着广泛的应用前景。

在经济金融领域,不论对经济发展的总体趋势预测,还是银行、保险、股市等细分行业的风险模型建立,都需要依靠大量“不完美信息”来决策。AI博弈工具可通过处理不完美信息来获得最佳决策。政府可利用AI博弈工具对社会行业的未来趋势进行预测,判断供需关系,合理有序引导行业健康发展。银行、保险公司可利用AI工具判断短期行业走势,高效评估企业风险,以决定是否达成交易。

在军事领域,具有自主学习功能的AI博弈工具与兵棋推演相结合,将爆发出极强的战斗力,帮助军队获取制胜先机。从上个世纪70年代初开始,美国陆军就按照“全自动兵棋”概念建立起“地面作战模拟系统”。20世纪90年代初,美军在海湾战争爆发前就使用兵棋游戏对整个战争进行了推演,而战争的过程几乎和美军事前的推演如出一辙。随着技术的进步,算法不断成熟使得算力需求进一步降低,同时计算技术朝着系统微型化和处理高速化方向发展,具备超强自主学习和计算能力的AI系统与作战模拟系统相结合,将提升对战局的预测和把控。未来,AI系统将有希望直接与战场指挥系统对接,其快速战局推演能力、高效制定作战方案的能力,将主导战争的胜负走向。

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

电话:010-82635522

微信:iite_er

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多