智能决策论坛系列解读 | 博弈论与人工智能

liuaqbb 2021-01-10

展开全文

CASIA

解锁更多智能之美

引言：2020年9月19至20日，由中国科学院自动化研究所主办的首届智能决策论坛在线上成功举办，多位专家学者围绕决策智能相关研究内容进行深入探讨，试图廓清决策智能的边界与内涵，为我国决策智能的发展与应用指明方向。

随着AI技术的进步，越来越多的问题都可以通过人工智能来解决，博弈问题也是如此。尽管人工智能在过去几年间的进展更多聚焦于识别、预测分类等方面，但面向未来，针对人工智能决策的深入研究将会是领域内的重要发展方向，而博弈论则正是用来刻画和分析多个智能体之间相互作用情况的理论框架。根据问题的不同性质，博弈论解决人工智能决策问题的方案可总结为以下两种：一是完全基于博弈论，即将整个问题建模成为一个博弈过程，然后求解均衡。需要注意的是，博弈求解往往是一个大规模优化问题，需要使用大量运筹学和优化的技术。另外一个思路是运用强化学习技术来求解问题。在问题不能被很好地用博弈论建模、规模过大或者是非凸问题难以使用优化方法等情况下，采用不基于模型的强化学习方法是合适且必要的。

人工智能的发展正为博弈领域创造着新的可能性。在理论层面，人工智能正为博弈提供新的解决方法，以博弈论中两个经典的均衡概念——纳什均衡与合作博弈中的均衡为例，两者都存在一些计算复杂性上的难题。在传统研究中，通常需要利用特定问题的特定结构进行求解，而强化学习中的Q-learning等方法则对计算均衡带来了新的思路。而在一些实际应用中，人工智能也在围棋、游戏等博弈场景上得到了新的应用，比如由强大计算能力支持的AlphaGo、AlphaStar通过对深度强化学习方法的应用获得了优秀的策略，并在人机博弈对抗中击败了顶尖人类选手。不仅如此，人工智能与强化学习也为研究价格战、拍卖等场景中的博弈问题提供了新的助力。那么，人工智能为博弈理论（如数学理论与算法）与实际场景中的博弈（如经济市场）带来的进展究竟达到了怎样的程度呢？在首届智能决策论坛中，北京大学前沿计算研究中心邓小铁教授带来题为《Game Theory and Practice at the AI Age》的主旨演讲，从博弈理论的角度探讨了人工智能技术与强化学习的应用和影响，对上述问题进行了解答。

邓小铁教授作报告

邓小铁通过介绍博弈论的发展概述了人工智能技术对博弈论带来的影响与改变。在例如战争这样的传统博弈中，人们追求的是一方尽可能达到胜利的策略，而在如经济学场景的博弈中，通常考虑的则是双方同时采取策略时可能会达到的 “均衡”状态。近些年人工智能的发展使得人们开始重新审视传统博弈论，在重新对博弈中的均衡状态进行定义的同时也在追求通过深度强化学习计算出某种致胜策略，博弈动力学作为一个新兴的研究方向因此得到更加广泛的关注。在人工智能与博弈论的结合中，许多研究着力探索如何在博弈中定义“智能”，如认知层次理论（cognitive hierarchy）等，人工智能技术也对博弈论中的数学和算法产生了巨大的推进作用，破解一些传统难题（如之前提及的均衡计算）在人工智能的助力下成为了可能。

此外，邓小铁还特别介绍了一些特殊场景下博弈论与人工智能的结合，如在某些场景下，博弈参与者会有动机地提供虚假信息以期获得更高的收益。对于参与者的这种欺骗行为，经济学家与计算机科学家持有不同的看法：经济学家认为个体的行为无法显著影响整个群体的行为，而邓小铁团队作为计算机科学研究者，他们则从算法博弈论的角度对完全自由、参与者可欺骗市场的均衡进行了刻画，得出了与经济学家不同的结论。邓小铁也表示，人工智能技术的发展使数据变得愈发重要且可以交易，那么人工智能的一些未来的应用场景便是利用相关技术帮助经济学家更好地分析相关市场行为、研究如何处理含有虚假信息的数据等等。

目前，许多针对博弈论的研究往往以博弈中的策略与博弈的结果为参考，注重研究博弈中达到的均衡及其方法，但实际上博弈中从初始状态到均衡的演化过程及参与者的运动规律也同样重要。近些年来，对博弈动态演化过程进行研究的博弈动力学也在逐步发展。在一般的博弈过程中，没有先验知识或经验的参与者会从采用随机策略开始，并根据其它参与者的策略和收益情况进行调整，从而做出更好的策略选择。如果将所有参与者的策略选择看作策略空间中的一个点，那么当大家都在调整自己的策略时，这个点就会在策略空间中形成运动轨迹，而博弈动力学就是要对这种现象的动力学结构进行定量表征与研究。在智能决策论坛中，浙江大学王志坚教授的《博弈论的动力学》报告就主要介绍了博弈动力学的相关知识与意义。

王志坚教授作报告

王志坚首先将博弈论与经典力学进行了类比，若把博弈均衡比作经典力学中的静力学，那么博弈中的运动演化就如同经典力学中的动力学，其复杂程度要远高于静力学。均衡状态仅仅是策略空间中的个别点，而运动演化则是策略空间中的整条轨迹；博弈论动力学的作用之一便是发现这些均衡点并构建博弈动力学方程，借此可以推导动力学过程、求解出博弈的本征值、判断稳定性，从而更好地理解博弈问题的本质并且能够对博弈结果做出准确的预测。

任何科学理论的预言均应与实验中的观察值完美吻合，这是对理论完整性和准确性的基本要求。尽管博弈动力学在理论上取得了许多成果，但如果无法用实验验证，这个领域的完整性和科学性就会存在问题。随着近年来测量技术的进步，理论预言的动力学结构也终于在实验中得到验证。王志坚在讲座中通过数个例子解释说明，博弈论动力学推算出的策略点运动轨迹均与实验结果相吻合，从而证明了博弈论动力学的科学性与有效性。

博弈论+人工智能在围棋、星际争霸等博弈场景上的成功应用，颠覆了传统博弈论对于均衡的过分关注。博弈论的引入让智能体在过去与环境打交道的基础上又学会了如何与其他智能体打交道，以及如何与人打交道，从而为人工智能的可解释性难题提供了一种可行的解决思路。博弈论作为研究游戏、军事、政治、社会、经济等各种领域中竞争与合作的理论，其思想几乎无处不在。而人工智能技术的飞速发展则让博弈论如虎添翼，许多以前被认为难以求解的复杂博弈问题正逐渐被层出不穷的新算法攻克，进而大大拓宽博弈论在现实生活中的应用范围。博弈论与人工智能的联结，或许终将会成为连接人与机器之间的一座桥梁。