《博弈论教程（第三版）》8第六章重复博弈和策略性行动（1）

来自：src862tektokae > 馆藏分类

配色：

字号：大中小

2023-05-24 | 阅：转： | 分享

第六章重复博弈和策略性行动(1)主要内容6-1 囚徒困境的有限重复6-2 囚徒困境的无限次重复6-3 重复次数不确定的情形6-1 囚徒困境
的有限重复囚徒困境抵赖是一个合作策略；局中人是合作者。坦白是一个背叛策略；局中人是背叛者。抵赖乙甲坦白抵赖坦白囚徒困境的重复博弈中
出现局中人的合作，是因为局中人担心一次不合作会招致未来合作机会的丧失。如果未来合作的价值很大，超过采取背叛策略所能获得的短期收益，
则出于对长远利益的考虑，双方会形成非契约的默契，使彼此都从默契的非契约合作中得到好处。例子：囚徒困境的价格大战版本两个企业垄断了一
种商品的市场，如果都实行高价，各得利润5万；如果你高我低，我得6你得1；如果都实行低价，双方利润都是3万。假定两个企业每个星期一都
要重新定价，“价格大战”按照星期的频率重复。讨论双方在重复博弈中合作的问题：高价乙甲低价高价低价一般性的分析：假定开始的
时候两家企业彼此合作，双方都实行高价。如企业乙在某个星期一偏离这个定价策略，则它在这个星期的利润会从5万上升到6万。甲觉得不应当继
续他们之间的合作，合作瓦解。乙在往后每个星期的利润都只能是3万，而不是没有采取背叛策略之前的5万。乙在采取背叛策略的当周获得的1万
利润的增加，是以往后每个星期损失2万为代价的。即使这种合作关系的潜在持续期只有两周，采取背叛策略也不是企业乙的最优选择。问题：如果
甲乙之间的合作关系恰好持续两个星期的话，结果会是怎样呢?倒推法：从第二个星期开始分析，最后一次博弈，不必为将来打算，各人都只追求这
次博弈的利益。背叛是一个优势策略。第一阶段即倒数第二个星期的博弈，局中人已经清楚，最后一次博弈对方肯定要实行低价，不管我现在对他如
何好心(收缩产量维持高价)，也不会在下一次得到好报。因此，双方都只追求当时的私利，都会采取背叛策略。两阶段的价格大战博弈就无法走出
囚徒困境。在囚徒困境多阶段重复的博弈中，只要两个局中人的策略互动关系所持续的时间固定（重复次数是预先确定的有限数），那么在理性人假
设之下，重复博弈的结果一定是每个局中人在每次博弈都采取背叛策略。上述结果可以归纳为下面一般化的定理：定理：令G
表示阶段博弈，G(T)是G重复T次的重复博弈，T＜∞。如果G有唯一的纳什均衡，那么重复博弈G(T)的唯一的子博弈精炼纳什均衡的结果
，是阶段博弈G的纳什均衡重复T次，即在每个阶段博弈出现的都是一次性博弈的那个均衡结果。6-2 囚徒困境的无限次重复根据先前双方
是否合作，决定自己下一阶段的策略是选择合作还是选择背叛，这类策略被笼统地称为依存策略或相机策略(contingent strate
gies)。大多数依存策略都是触发策略( trigger strategies )。一个局中人使用触发策略，意味着只要他的对手在博
弈中一直采取合作策略，则该局中人也会在博弈中继续采取合作策略；但是，一旦对手在某一个阶段采取背叛策略，将会触发该局中人在往后的一段
时期内采取不合作策略，甚至永远采取不合作策略，从而对对手实施惩罚。两个最著名的触发策略：冷酷策略(Grim strategies
)礼尚往来策略(Tit for tat strategies)冷酷策略双方一开始的时候选择合作，然后继续选择合作，直到一方选择背叛
，从此永远选择背叛。任何局中人的一次性不合作将触发永远的不合作。礼尚往来策略双方从合作开始，在以后的每个阶段，如果对手在最近的一次
博弈中采取合作策略或者在最近连续K次博弈中采取合作的策略，则你继续跟他合作；如果你的对手在上一阶段的博弈中采取背叛策略，则你在下次
的博弈中采取背叛策略报复他，或者在下面连续K次博弈中采取背叛策略报复他。惩罚K次的礼尚往来策略：自然数K，即被背叛以后，究竟连续惩
罚或者报复几次。惩罚1次的礼尚往来策略，也叫做严格的礼尚往来策略。严格礼尚往来策略：在开始阶段博弈合作，以后则模仿对手在前一阶段博
弈的行动，对手上次对我怎样，这次我就对他这么样。严格的礼尚往来策略=不记仇的礼尚往来策略冷酷策略=记仇的礼尚往来策略=惩罚无穷次的
礼尚往来策略礼尚往来实验密歇根大学的罗伯特·艾克谢罗德(Robert Axelrod) 设计了一个两人“囚徒困境”重复博弈计算机模
拟竞赛。计算机模拟竞赛的思路：任何参加这个竞赛的人都扮演囚徒困境中一个囚犯的角色，把自己的策略编成计算机程序；他们的程序会被成对地
融入不同的组合，分好组以后，参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间做出选择；以循环赛的方式玩上150次；
游戏允许在做出合作或背叛抉择时参考对手程序前几次的选择。如果已经交手过多次，则双方就建立了各自的历史档案，用以记录对手的交往情况，
通过多次交手树立了或好或差的声誉。结果第一轮游戏有14个程序参加，其中包含了各种复杂的策略。加上艾克谢罗德自已的一个随机程序（即以
50％的概率选取合作或背叛）。竞赛的桂冠属于一个被称为“一报还一报（TIT FOR TAT）”的策略是由多伦多大学的数学教授阿纳托
·拉普波德(Anatol Rapoport)提交上来的。14个程序中有8个是“善意的”，轻易地赢了6个非善意的程序。第二轮游戏艾克
谢罗德邀请更多的人再做一次游戏，并把第一次的结果公开发表。这一次有62位科学家递交了改进程序；竞赛结果表明前15名中，只有第八名的
哈灵顿程序是“非善意的”；最后15名中，只有一个总是合作的程序是“善意的”；夺魁的仍是“一报还一报”。“一报还一报”策略的特点善良
：第一步总是向对方表达善意，他永远不首先背叛对方；可激怒：对方出现背叛行动时，它能够及时识别并一定采取背叛的行动来报复，不会上背叛
者逍遥法外；宽容：不会因为别人的一次背叛，长时间怀恨在心或者没完没了地报复，而是在对方改过自新、重新回到合作轨道时，能够既往不咎地
恢复合作；简单：它的逻辑清晰，易于识别，能上对方在较短时间内辨识出来其策略所在。不善良：所有第一步背叛的程序都未进前10名；不可激
怒：某些程序太好脾气，被对方背叛之后不立即反应，结果鼓励某些狡猾的程序反复占他的便宜；不宽容：某些程序对于过往关系的“好坏”太过执
着，一旦被别人欺骗就很难宽容，结果使得很多本来可能恢复的合作关系永久性断绝；不简单：某些程序把自己搞得太复杂，总是试图通过某种机巧
来占人便宜，尽管与某些傻程序接触中的了高分，但一旦碰到个性“刚烈”的程序，就会搬起石头砸了自己的脚。从最后的总分来看是得不偿失。艾
克谢罗德在《合作进化》一书中指出，一报还一报策略能导致社会各个领域的合作，包括在最无指望的环境中的合作。演化会使一报还一报的合作风
格在这个充满背信弃义劣行的世界上蔚然成风。假设少数采取一报还一报策略的个人在这个世界上通过突变而产生了。只要这些个体能互相遇见，足
够在今后的相逢中形成利害关系，他们就会开始形成小型的合作关系。一旦发生了这种情况，他们就能远胜于他们周围的那些背后藏刀的类型，参与
合作的人数就会增多，一报还一报式的合作最终占上风。如果不太合作的类型想侵犯和利用他们的善意，一报还一报政策强硬的一面就会狠狠地惩罚
他们，让他们无法扩散影响。礼尚往来策略的缺陷只要有一丁点儿的发生误解的可能性，礼尚往来策略的优势就会土崩瓦解。一旦人们将礼尚往来
策略用于解决现实世界的问题，误解就难以避免，由于任何一个错误都会反复出现，犹如回声振荡，结局就会是一场灾难。例如：各种外交事件，以
色列和巴勒斯坦的争斗背叛一次的分析分析：如果一个局中人采取礼尚往来策略，则另一个局中人背叛一次是否值得?高价乙甲低价高价低价如果双
方开始的时候是进行合作的，并且甲所使用的是礼尚往来策略。则乙的一个选择是背叛一次之后继续与甲合作。采用这个策略，则乙在第一个星期(
即他进行背叛的那个星期)可以多得到1万的利润，但他在第二个星期将会损失4万。而从第三个星期开始，双方又可以继续进行合作。考虑货币的
时间价值当1＞4／(1十r)时，即r＞3（当投资的周收益率超过300％），乙背叛一次然后与甲继续合作才是值得的。显然，这个结果发
生的可能性极低，或者说几乎不可能。因此，当甲采取礼尚往来策略时，乙与甲一直保持合作要优于背叛一次然后继续合作。永远背叛的分析分析：
如果其中一个局中人采取礼尚往来策略。则另一个局中人永远背叛下去是否值得?假设甲实行礼尚往来策略，乙在采取背叛一次后就永远背叛下去的
策略。乙在第一个星期将多得到1万的利润。但他在以后每个星期都将遭受2万的损失。经分析可知1 ＞ 2/r时（r＞2 ），乙会永远背叛
下去，投资的周收益率高于200%时，乙选择永远背叛是值得的。但几乎不可能有这么高的收益率，所以乙与甲一直保持合作要优于永远背叛策略
。因此，甲乙都实行礼尚往来策略时，双方都实行高价的合作结果会成为博弈的一个纳什均衡，礼尚往来策略走出了囚徒困境。6-3 重复次数不
确定的情形虽然局中人并不确切地知道博弈究竟会持续多长时间，但他们对该博弈能否多持续一个时期或者多重复一次有一定的概率判断。例如：在
实行背叛策略后的下一个星期的损失的贴现值等于＝1／(1十r)乘以损失。但是，如果双方的这种博弈关系在下一个星期持续的概率
只有p(0＜p＜1)，则下一个星期的损失的现值将只有p乘上再乘上损失。对于乙来讲，继续背叛所遭受的2万损失的贴现值等于2p
。因此，引入下一阶段结束博弈的不确定性(概率p表示)，使得损失的贴现值相比于确定性情形变小了。投资的有效收益率投资的有效收益率
R (effective rate of return)R＝(1／p )-1，与原来的投资收益率相比，有效收益率体现了对投资
风险的考虑。例如：如果投资收益率是10％(即r＝0.1，从而＝1／1.1＝0.91)，并且博弈再持续一个星期的概率是35％(即
p＝0.35)。那么可以算出投资的有效收益率是R=2.14，或者说214％。一般化的礼尚往来策略分析局中人的支付，字母满足所体现的
囚徒困境支付的标准结构，H＞C＞D＞L。一个局中人采取背叛策略所得到一次性收益为(H-C)；背叛者重新采取合作策略时需要经过一个惩
罚期，惩罚期内所遭受的损失为(C-L)；背叛者采取永久性背叛策略时每期的损失为(C-D)。博弈在下一期继续的可能性为p(0＜p＜1
)，并且每个时期都使用有效收益率R对支付进行折现。如果p=1，则R=r。情况1：在给定对手采取礼尚往来策略的条件下，如果背叛当期所
获得的收益超过下一个惩罚期内所遭受的损失的贴现值，则局中人会采取背叛行动。即(H-C)＞(C-L )／(1+R)，也即，情况2：永久性的背叛行为会导致未来各个时期都产生损失，在对手采取礼尚往来策略的条件下，只有当背叛所获得的一时收益超过无限期损失之和的贴现值时，即(H-C)＞(C-D)／R时，局中人采取永久性的背叛策略才是值得的，即关键四因素：即时收益(背叛收益)未来需要承担的损失(未来损失)折现因子博弈持续下去的概率局中人越有可能采取背叛行动的情况：采取背叛行动产生的收益越高未来的损失越小折现因子很小博弈持续下去的概率小

献花(0)

(本文系src862tekto...首藏)

类似文章 更多

发表评论：