2017年是AI在扑克上取得突破的一年,冷扑大师Libratus和DeepStack 相继完胜人类,实现对人类专业级玩家的超越,毫无疑问是里程碑式的突破。在AlphaGo和Master与人类专业棋手的PK光环下,扑克AI的研究稍显黯淡,但是,以解决不完美信息博弈为目标的扑克AI路径难度和重要性并不亚于围棋。在商业谈判、医疗健康、网络安全、拍卖等领域,这一技术有着不容忽视的应用价值。本文以信息图示的形式,为你介绍扑克AI的历史、技术原理、对战细节、AI 的优势等,了解冷扑大师的前世今生。 2017年是AI在扑克上取得突破的一年,在AI的发展历史上,具有里程碑的意义。 1月,卡耐基梅隆大学的 AI 程序在“一对一不限注”的扑克比赛中,击败了一组世界级的德州扑克职业选手。出乎所有人的意外,这一程序对人类专业扑克手的胜利几乎是压倒性的:14bb/h。(注,德州扑克中,线下按bb/h,超过15bb/h,你已经完全统治这个级别的桌子了,能打到5bb/h-10bb/h已经很不错了。线上按bb/100手,超过5bb/100已经非常厉害了。) 比赛一共打了12万手,最后 AI 程序赢得170万筹码,也就是约 1.7 万大盲注,接近 90 个买入。对职业扑克玩家来说,还好这不是真正的钱,虽然他们在这场比赛中溃不成军。团队里每个人都败给了机器。 这个 AI 程序被称为 Libratus,它的开发者之一,CMU 博士生 Noam Brown 称它是“扑克AI的圣杯”。Libratus 是 Noam Brown 和 CMU 教授 Tuomas Sandholm 一起开发的,而它只是 CMU 研发的一系列扑克 AI 程序中最新的一个。此前,从来没有机器能在一对一不限注德州扑克游戏中击败世界级的人类职业玩家。 卡耐基梅隆大学的 AI 程序 Libratus 的开发者Tuomas Sandholm 教授(右)与 Noam Brown 博士 根据 Brown 的说法,后续版本的 Libratus 还能有很大的提升空间,升级后的程序理论上能赢 50bb/h。 而在惊人的 Libratus 之前,来自加拿大和捷克的几位计算机科学研究者近日在 arXiv 上贴出论文,介绍了一种用于不完美信息(例如扑克)的新算法,DeepStack 结合使用循环推理来处理信息不对称,使用分解将计算集中在相关的决策上,并且使用一种深度学习技术从单人游戏中自动学习的有关扑克任意状态的直觉形式。研究者在论文中称,在一项有数十名参赛者进行的44000手扑克的比赛中,DeepStack 成为第一个在一对一无限注德州扑克中击败职业扑克玩家的计算机程序。 随后,Science以封面文章的方式,对这一AI 在不完美信息博弈中堪称里程碑式的突破进行了报道。 扑克网站pokersites.me.uk近日发布了一篇文章,以信息图的方式,完整地介绍了人类开发AI程序以对抗扑克玩家的里程,从1984年开始,我们已经在这一方向上探索了30多年,在2017年获得最值得骄傲的成功。冷扑大师“ Libratus” 和DeepStack 不仅仅意味着在扑克上的突破,更多的是深度学习和人工智能综合性的成就和技术高度。 下文,我们将从历史、技术原理、对战细节、AI 的优势、扑克AI的延伸应用以及未来等多个方面,介绍以扑克为攻克的目标的这一人工智能突破路径。不完美信息博弈上,AI技术的成熟与应用,将会进一步扩展AI的应用边界,比如,在商业谈判、医疗健康、网络安全、拍卖等等领域得到广泛应用。 对抗人类:机器的崛起 扑克AI标志着AI研究历史上的又一个里程碑。 概述:AI击败人类冠军的三件事
人类如何认知AI:人口统计数字
扑克中反映的通用问题
最近10年,驱动扑克AI研究发展的力量
扑克AI背后的科学家:
对抗人类:机器的崛起
解密冷扑大师Libratus:成功骗过最佳扑克专业玩家的扑克AI Libratus 基于匹兹堡超级计算中心1500万小时核心计算制定自己的扑克策略。 匹兹堡超级计算中心的超级计算机“嫁接”资源
扑克游戏的特征
Libratus的策略:
Libratus三大模块。Libratus有三大模块,每一个都在执行不同的任务:
冷扑与其他AI的不同之处 Libratus:没有深度神经网络,从头开始学习规则,所运用的策略完全独立于人类玩家。 其他AI:有深度神经网络,对旧的玩法进行分享以学习规则,所运用的策略不独立于人类玩家。 过渡时期,无限下注德州扑克的解决也不远了 人脑 VS AI Claudico 2015年,Tuomas Sandholm和CMU的同事发布了一个超级智能的扑克AI Claudico,用于无限注的扑克对抗。 四名最好的玩家:Doug Polk,Bjorn Li,Dong Kim 和 Jason Les 在Rivers 赌场完成了与Claudico的对抗。 在为期13天的比赛中,一共进行了8万手的比赛,下注的虚拟货币数量总额为1.7亿美元。 四名玩家一起击败了Claudico,赢了732713美元。 2017年,UoA发布了DeepStack,专攻无限下注的德州扑克。DeepStack采用了深度神经网络,来模仿人类在围棋游戏中的“直觉”和学习能力。DeepStack将游戏的场景“压缩”到10的14次方,由此一来,两个玩家的对抗产生的可能的游戏场景就是10的160次方。 结果:整个研究涉及了几十名参与者,包含了44万手扑克。DeepStack的平均获胜率是450 mbb/g,在专业扑克玩家中,50 mbb/g的赢率就可以称得上是优秀了。与DeepStack对战的都是优秀的玩家,但是,它还没有与顶级玩家过招。 2017年,CMU的冷扑大师 Libratus 横空出世,创造了扑克AI与人类玩家对抗最为压倒性的胜利。 2017年1月,四位人类最顶级的玩家与Libratus 进行对抗,一共进行了12万手的比赛。 每一手对抗中,人类玩家和AI各自拥有2万筹码,盲注为50/100。 Libratus 分别击败了四位玩家,并且赢率为14.72美元每一手。 Libratus的赢率为14.7 bb 每一百手,这对AI来说是一个非常优秀的结果了。 所有的四名人类玩家都输掉了自己的3万手对抗,等于输掉了176万6250美元。 专业扑克手 VS AI扑克手,战役还是战争? AI 的优势在哪?
顶级的AI模拟和训练软件,能够帮助人类 线上扑克Bot 纸牌之外的下一步,AI的未来 趋势与可能性
不完美信息的应用:商业谈判、医疗健康、网络安全、拍卖等等。 参考资料 来源:新智元 |
|
来自: 昵称40471325 > 《待分类》