分享

算法博弈论

 阿里山图书馆 2020-03-31
1 关于规则制定的科学
2012年奥运会在伦敦举办。在羽毛球赛事中,发生了一件丑闻。这件丑闻与兴奋剂无关,而是由于赛制设计的失败导致的。在设计赛制时,奥委会没有仔细考虑运动员的动机这一关键因素。

奥运会羽毛球赛制的设计和足球世界杯的赛制类似。一共有四个组(A,B,C,D),每组中有四支参赛队。赛程有两个环节。第一个环节是小组内循环赛,每一支参赛队与组内其他三支进行比赛,而不与其他组的参赛队比赛。小组赛中排名前两位的参赛队将进入第二个环节,排名后两位的参赛队则直接出局。第二个环节采用的是淘汰赛制。一共有四场四分之一决赛,每场失败的参赛队被直接淘汰;然后是两场半决赛,半决赛中失败的两支参赛队将会争夺铜牌;决赛中的获胜者拿金牌,负者拿银牌。

在这样的过程中,参赛队、奥委会和观众各自的动机是不一致的。参赛队想要的是什么?当然是拿更好的奖牌。奥委会想要的是什么?好像他们并没有认真思考这个问题,但是在丑闻发生后,我们很清楚奥委会希望每支参赛队都能尽全力去打每场比赛。一支参赛队竟然会想要输掉一场比赛?在淘汰赛环节,因为输一场会导致直接被淘汰,显然赢绝对是比输要好的。

为了理解动机,我们需要解释小组赛到淘汰赛的进阶过程(见图1.1)。在淘汰赛的四分之一决赛时,A组中积分最高的队伍会和C组中排名第二的队伍比赛,这是第一场四分之一决赛。类似的,C组中排名第一的队伍会和A组中排名第二的队伍比赛,这是第三场四分之一决赛。B组和D组中前两位的队伍会以类似的方式进行匹配,产生第二、四场四分之一决赛。问题发生在小组赛的最后一天,丹麦队的Pedersen和Juhl(PJ)对阵中国队的Tian和Zhao(TZ),PJ以小组第一的身份晋级淘汰赛,而TZ以小组第二的身份晋级。
第一场有争议的比赛是中国队的Wang和Yu(WY)与韩国队的Jung和Kim(JK)的比赛。这两个参赛队的战绩都是组内胜两场,所以两队都能提前晋级淘汰赛。但是有一个问题,本场比赛的获胜者以A组第一名的身份晋级后,很可能在半决赛时迎战上面提到的TZ队,而TZ队是公认的强队。如果输给TZ队,则最多只能拿到铜牌。而相比而言,本场比赛的失败者不会马上迎战TZ队,那么银牌就很有保障了。WY队和JK队都清楚这一点,所以比赛时两队都想输给对方!这样无趣的比赛导致WY和JK两队最终被取消参赛资格。C组中的另外两个参赛队也因为相似的原因被取消参赛资格。(在这届奥运会中,PJ队在四分之一决赛中被淘汰,TZ队最终获得金牌。)

问题的关键在于,在一个由策略型参与者组成的系统中,规则是至关重要的!未经精心设计的系统会招致意想不到的结果。出现这样结果的责任在于系统的设计者而不是参与者,设计者应该预见到参与者的策略,而不能要求参与者违背自己的利益行事。我们不能责怪参赛的羽毛球队,他们在比赛时使用对自己有利的策略并没有错。

机制设计是一门成熟的、关于决策的科学。机制设计的目标是设计一系列规则,从而使得参与者的策略型行为能够导致好的结果。本书中所涉及的机制设计的经典应用包括关键字搜索拍卖、无线频谱拍卖、医院和病人的匹配以及肾脏交换等问题。第2~10章涵盖了传统经济学中关于机制设计的基础知识,以及计算机科学对于机制设计的贡献,包括计算效率、近似优化和可靠性保障等。

2 自私的行为在什么时候是近似最优的
2.1 布雷斯悖论
有时你并没有条件从零开始来构建博弈,而是要先根据现实状况理解博弈。考虑图1.2中所示的布雷斯悖论问题。有一个源节点o,一个目标节点d,还有固定数量的司机要从o出发到d去。现在先假设o和d之间有两条不相干的路径,每条路径都是由一段长但宽阔的路和一段短但狭窄的路组成的(图1.2a)。假设在长但宽阔的路段上,不论有多少交通流,所需的行程时间都是1小时;假设在短但狭窄的路段上,所需要的时间等于其上所承担的交通流的百分比。图1.2a中边上的数值就是这段路程所需的时间。每一条路径上的总体时间代价是1+x,其中x就是使用这条路径的交通流的比例。因为两条路径相互独立,交通流会在这两条路径上均分。这样,每一个司机从o出发到达d所花费的时间都是一个半小时。
假设我们想提升交通运行能力,在图上v和w之间增加一条可以瞬时通过的边(图1.2b)。这种情况下,司机会如何反应?之前的交通流模式将会被打破。每一位司机在路径o→v→w→d上所花费的时间都不会比原先两条路径上的时间更多,当某些司机没有使用这条新的路径时,新路径上的时间会严格小于原始路径上的时间。所以,我们预期所有司机都会转变到使用这条新的路径。因为边(o,v)和(w,d)上的拥堵,现在每一位司机从o到d所耗费的总体时间都变成了两个小时。布雷斯悖论告诉我们,在网络中加边,虽然本意是好的,但有可能导致坏的结果。

布雷斯悖论还展示了自私的路由不能将司机的时间代价最小化。在一个带有瞬时通路的网络中,一个利他的指挥者能使每一个人的时间代价降低25%。我们将无秩序代价(Price of Anarchy,POA)定义为策略型参与者自组织情况下系统的表现与系统最优表现的比例。对于图1.2b所示的例子,POA=23/2=43。

在诸多应用领域中,包括网络路由、调度、资源分配和拍卖,在合理的条件下,POA都可以趋近于1。在这样的情况下,自私的行为会导致近似最优的结果。

2.2 线与弹簧
布雷斯悖论不仅仅适用于交通网络,它还能与机械网络“线与弹簧”对应起来。在图1.3所示的设备中,一只弹簧的一头固定在顶上,另一头连着一条线。还有另一只相同的弹簧,一头被这条线吊着,另一头拉着一个重物。上面这只弹簧的下部到重物连有一条松弛的线,下面这只弹簧的上部到顶连有一条松弛的线。
如果合理选择弹簧和线,这个机械网络可以达到一个均衡的位置,如图1.3a所示。可能很难相信的是,如果剪掉中间这条紧的线,会使重物被提起来,如图1.3b所示。这个现象的原因是一开始两只弹簧是串联的,所以每一只都承受了重物的全部重量。在剪掉中间的线之后,弹簧形成了并联,共同分担了重量,所以只拉伸了一半。在这个例子中,重物位置的提升,和交通网络例子中瞬时连边被移除后时间代价的减少有相同的效果。

3 策略型参与者能通过学习算出一个均衡吗
有一些博弈并不难玩。例如,在图1.2b中,使用瞬时连边是不需要思考的,不论其他司机怎么做,每个人都会选择走这条路。但是在大多数博弈中,一个参与者的最优动作要取决于其他参与者在做什么。下面所示的石头-剪刀-布博弈就是一个经典的例子。
两个参与者,其中一人选择某一行,另一人选择某一列。矩阵每一个格子里的两个数分别代表行参与人的收益和列参与人的收益。更一般地,一个双人博弈包含每个参与者的有限策略集合,以及在每种策略组合下各方所获得的收益。

均衡就是系统的稳定状态。在这个状态下,对每一个参与者来说,如果其他参与者保持不变,那这个参与者也会想保持不变。在石头-剪刀-布博弈中,没有确定性的均衡:不论当前的状态是哪种,至少有一个参与者可以通过单方面改变策略来获得高收益。例如,博弈局势(石头,布)不可能是一个均衡,因为行参与者可以通过单方面改变到剪刀来获得更高的收益。

在实际玩石头-剪刀-布时,看起来对手好像是在随机选择三种策略。这样一个在所有策略上的概率分布称为混合策略。如果两个参与者都平均地随机选择自己的三种策略,则没有任何一个人能够通过单方面改变策略来获得更高的收益(任何的单方面改变策略都会导致期望收益为0)。这样的概率分布所形成的策略对就叫作(混合策略)纳什均衡。

如果允许随机,那么每一个博弈都至少含有一个纳什均衡。

定理1.1(纳什定理) 任何一个有限的双人博弈都含有纳什均衡。
纳什定理在任何含有有限人数的博弈中都成立。
纳什均衡是否可以由一种算法或者一个策略型参与者自己很快计算出来呢?在石头-剪刀-布这样的零和博弈中,纳什均衡可以使用线性规划方法很快计算出来;或者如果允许很小的错误发生,也可以通过简单的迭代学习算法计算出来。这些算法的结果使得我们相信纳什均衡对于零和博弈有很好的预测能力。

但是在非零和双人博弈中,近期的研究结果表明,并不存在能计算纳什均衡的快速算法。有趣的是,NP困难性这一复杂度的标准好像并不适用于纳什均衡的计算。在这种意义上讲,计算双人博弈的纳什均衡是一个少有的、自然的且展现出中等计算困难度的问题。

在关于均衡概念的很多版本的诠释中,牵扯到某些智能体(参与者或者博弈设计者)来决定一个均衡。如果所有的参与者都是有限理性的,只有当一个均衡的计算代价能够被接受的时候,它才可以被视为可信的预测。所以,计算困难性给均衡概念的预测能力提出了质疑。在计算困难性之前,还有其他对于纳什均衡的质疑。例如,博弈可以含有多个纳什均衡,而这种非唯一性也削弱了均衡的预测能力。即便如此,来自计算困难性的批评仍然是很重要的,并且,这是使用计算机科学中的概念很自然地构建出来的。计算困难性还为我们提供了动机,使得我们去研究计算可行的均衡概念,例如相关均衡和粗糙相关均衡。

总结
●2012年奥运会的女子羽毛球赛丑闻是由于参赛队和奥组委的目标不一致而导致的。
●在一个系统中,系统设计者有责任预测参与者的策略,而不应该指望着参与者违背自己的利益行事。
●布雷斯悖论告诉我们,在网络中修一条高速通道有可能会给交通造成负面的影响。类似的,在线和弹簧的系统中剪掉一条线可能会使得重物的位置上升。
●无秩序代价(POA)是策略型参与者自组织情况下系统的表现与系统最优表现的比值。当POA接近1时,说明自私的行为大体上是良性的。
●博弈的组件包括:一个参与者集合,每个参与者有一个策略集合,在每一个博弈局势下,每一个参与者都有一个收益。
●在纳什均衡下,任何参与者都不能通过单方面变更自己的策略而增加收益。纳什定理说明,每个有限博弈至少含有一个混合策略纳什均衡。
●计算双人博弈的纳什均衡是现实世界中少有的体现出中等计算困难的实例。

说明
Hartline和Kleinberg(2012)将奥运会女子羽毛球赛丑闻和机制设计问题联系起来。布雷斯悖论来自于Braess(1968),线和弹簧问题可以参考Cohen和Horowitz(1991)。关于布雷斯悖论的相关引用和泛化参见Roughgarden(2006)。Koutsoupias和Papadimitrious定义了无秩序代价。定理1.1来自于Nash(1950)。“市场会不精确地为一个重要的计算性问题找到一个解”,这一思想可以追溯到亚当·斯密的“看不见的手”(Smith,1776)。Rabin(1957)率先讨论了有限理性和某些均衡概念之间的冲突。

*本文摘编自《斯坦福算法博弈论二十讲》


推荐阅读

计算机科学与经济学的交互产生了“算法博弈论”这一新的研究领域。对于计算机科学中的诸多核心问题,其本质上都涉及多个自私个体之间的交互,经济学和博弈论为这样的问题提供了丰富的推理模型和定义系统。而对于传统经济学中的问题,计算机科学也起到了补充作用,例如关于计算复杂性、近似边界以及贝叶斯或平均情况分析的研究。本书源于斯坦福大学“算法博弈论”课程讲义,通过具有代表性的模型和结论,帮助读者快速了解这一领域的重要概念。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多