囚徒困境 prisoner's dilemma是博弈论分析博弈的一个代表性例子,它揭示了为什么两个完全理性的个体可能不会合作,即使这样做符合他们的最大利益。它最初是由梅里尔·弗勒德 Merrill Flood和 梅文·加舍尔 Melvin Dresher于1950年在兰德公司工作时构建的。阿尔伯特.W.塔克 Albert W. Tucker将这种博弈以监禁刑罚奖励的方式正式化,并将其命名为囚徒困境,具体阐述如下:
囚徒困境支付矩阵
囚徒困境的策略 两名囚犯被分开关押在各自的房间里,不能相互交流。 假设两个囚犯都了解博弈的本质,对彼此不忠诚,且在博弈之外没有机会得到报复或奖励。那么不管对方怎么决定,每个犯人背叛对方都会得到更高的奖励(“叛变”)。推理涉及一个进退两难的论点:B 要么合作,要么叛变。如果B合作,A 应该叛变,因为得到释放总比服刑1年好。如果 B叛变,A也应该叛变,因为服刑2年总比服刑3年好。所以不管怎样,A都应该叛变。并行推理表明B应该选择叛变。
广泛形态 传统囚徒困境的结构可以从其最初的囚徒环境中概括出来。假设两个玩家用红色和蓝色表示,并且每个玩家选择“合作”或“背叛”。
正则 PD 支付矩阵 要成为强意义下的囚徒困境博弈,收益必须满足以下条件: 回报关系R>P意味着相互合作优于相互背叛,然而回报关系T>R和P>S也意味着相互背叛是双方的占优策略。 特例:捐赠博弈捐赠博弈是囚徒困境的一种形式,在这种博弈中,合作相当于以b > c条件下的个人成本c为另一方提供一个收益b,而叛变意味着什么也不提供。收益矩阵如下: 捐赠博弈收益矩阵 请注意2R>T+S(即2(b-c)>b-c)这使得捐赠博弈成为一个重复博弈(见下一节)。 捐赠博弈可能适用于市场。假设种植者X 种橘子,种植者Y 种苹果。苹果对橙子种植者 X 的边际效用 marginal utility是b,“b”比橙子的边际效用c高,因为X有橙子剩余而没有苹果。同样地,对于苹果种植者Y来说,橙子的边际效用是b,而苹果的边际效用是c。如果X和Y签约交换一个苹果和一个橙子,并且每个人都完成了交易,那么每个人都会得到b-c的收益。如果一方违约没有按照承诺交货,那么这个违约者将得到b的收益,而合作者将失去c的收益。如果两者都违约,那么谁也不会得到或失去任何东西。 重复囚徒困境 如果两个参与者连续进行多次囚徒困境博弈,他们记住对手先前的行动并相应地改变策略,这种博弈被称为重复囚徒困境。
重复囚徒困境下的策略罗伯特·阿克塞尔罗德 Robert Axelrod在他的著作《合作的进化 The Evolution of Cooperation》(1984)中激起了人们对重复囚徒困境(IPD)的兴趣。在这篇文章中,他报道了自己组织的固定N次囚徒困境的比赛,参与者必须一次又一次地选择他们的共同策略,并且要记住他们之前的遭遇。Axelrod邀请世界各地的学术界同仁设计计算机策略来参加IPD锦标赛。输入的程序在算法复杂性、最初敌意、宽恕能力等方面有很大差异。
对于一次性的囚徒困境博弈,最优(点数最大化)策略就是简单的叛变; 正如上面所说,无论对手的构成如何,这都是正确的。然而,在重复囚徒困境博弈中,最优策略取决于可能的对手的策略,以及他们对叛变和合作的反应。例如,考虑一个群体,其中每个人每次都会叛变,只有一个人遵循针锋相对的策略。那个人就会由于第一回合的失利而处于轻微的不利地位。在这样一个群体中,个体的最佳策略是每次都叛变。在一定比例的总是选择背叛的玩家和其余组成选择针锋相对策略的玩家的人群中,个人的最佳策略取决于这一比例和博弈的次数。
贝叶斯纳什均衡:如果可以确定对立策略的统计分布(例如,50%针锋相对,50%总是合作),那么,可以通过分析得出最佳的反策略(例如2003年的研究讨论这一概念以及它是否可以应用于实际经济或战略情况。) 蒙特卡罗方法已经对种群进行了模拟,分数低的个体死亡,分数高的个体繁殖(遗传算法 genetic algorithm用于寻找一个最佳策略)。最终群体中的算法组合通常取决于初始总体的组合。引入突变(繁殖过程中的随机变异)可以减少对初始种群的依赖性。使用这种系统进行经验性实验往往会为针锋相对的玩家带来麻烦(见Chess 1988),但是没有分析证据表明这种情况会一直发生。 尽管针锋相对被认为是最有力的基本策略,来自英格兰南安普敦大学的一个团队在20周年的重复囚徒困境竞赛中提出了一个新策略,这个策略被证明比针锋相对更为成功。这种策略依赖于程序之间的串通,以获得单个程序的最高分数。这所大学提交了60个程序,这些程序的设计目的是在比赛开始时通过一系列的5到10个动作来互相认识。一旦认识建立,一个程序总是合作,另一个程序总是叛变,保证叛变者得到最多的分数。如果这个程序意识到它正在和一个非南安普顿的球员比赛,它会不断地叛变,试图最小化与之竞争的程序的得分。因此,2004年囚徒困境锦标赛的结果显示了南安普敦大学战略位居前三名,尽管它比冷酷战略赢得更少,输的更多。(在囚徒困境锦标赛中,比赛的目的不是“赢”比赛——这一点频繁叛变很容易实现)。此外,即使没有软件策略之间的暗中串通(南安普顿队利用了这一点) ,针锋相对并不总是任何特定锦标赛的绝对赢家; 更准确地说,它是在一系列锦标赛中的长期结果超过了它的竞争对手。(在任何一个事件中,一个给定的策略可以比针锋相对稍微更好地适应竞争,但是针锋相对更稳健)。这同样适用于带有宽恕变量的针锋相对,和其他最佳策略: 在任何特定的一天,他们可能不会“赢得”一个特定的混合反战略。另一种方法是使用达尔文 Darwinian的 ESS模拟 ESS simulation。在这样的模拟中,针锋相对几乎总是占主导地位,尽管讨厌的策略会在人群中漂移,因为使用针锋相对策略的人群可以通过非报复性的好策略进行渗透,这反过来使他们容易成为讨厌策略的猎物。理查德·道金斯 Richard Dawkins指出,在这里,没有静态的混合策略会形成一个稳定的平衡,系统将始终在边界之间振荡。这种策略最终在比赛中获得了前三名的成绩,或者是接近垫底的成绩。 这种策略利用了这样一个事实,即在这场特殊的比赛中允许多个参赛项目,并且团队的表现由得分最高的项目来衡量(这意味着使用自我牺牲的项目是一种分数最大化的形式)。在一个只能控制一个玩家的比赛中,针锋相对当然是一个更好的策略。由于这一新规则的存在,与阿克塞尔罗德的具有深远影响的竞赛相比,这种竞赛在分析单个主体策略时也就没有什么理论意义。然而,它为在分析多主体框架下,特别是在存在干扰的情况下,如何实现协作策略提供了基础。事实上,早在这场新规则锦标赛开始之前,道金斯就在他的《自私的基因》一书中指出,如果允许多次参赛,这种策略就有可能获胜,但他说,如果提交这种策略的话,阿克塞尔罗德很可能不会允许。因为它依赖于规避囚徒困境的规则,即两个参与者之间不允许交流,南安普顿的项目可以说在开场的“十步舞”中就是这样做以认识对方的; 这只是强调了交流在改变游戏平衡方面的价值。 随机重复囚徒困境 在随机重复囚徒困境博弈中,策略由“合作概率”来确定。在玩家X和玩家Y之间的遭遇中,X的策略由一组与Y合作的概率P确定,P是他们之前遭遇的结果的函数,或者是其中的一些子集。如果P只是它们最近遇到次数 n的函数,那么它被称为“记忆-n”策略。我们可以由四个联合概率指定一个记忆-1策略:P= {Pcc,Pcd,Pdc,Pdd},其中Pab是在当前遭遇中基于先前联合的概率。如果每个概率都是1或0,这种策略称为确定性策略。确定性策略的一个例子是针锋相对策略,写成 p {1,0,1,0} ,其中 x 的反应和 y 在前一次遭遇中的反应一样。另一种是胜-保持-败-转换策略,它被写成 p {1,0,0,1} ,在这种策略中,如果 x 获得胜利(即:cc 或 dc),x会做出与上一次遭遇一样的反应 ,但如果失败,x会改变策略(即cd 或 dd)。研究表明,对于任何一种记忆-n 策略,存在一个相应的记忆-1策略,这个策略给出相同的统计结果,因此只需要考虑记忆-1策略。 如果我们将P定义为X的上述4元策略向量,并将Q= {Qcc,Qcd,Qdc,Qdd}定义为Y的4元策略向量,则对于X可以定义一个转移矩阵M,其第ij项是X和Y之间特定相遇的结果为j的概率,给定i,其中i和j是cc、cd、dc或dd 四个结果索引中的一个。例如,从X的角度来看,如果给定cd,那么这次的结果是cd的概率等于Mcd,cd=Pcd(1-Qcd(Q的指标是 从Y的角度: X的cd结果是Y的dc结果)在这些定义下,重复的囚徒困境被定义为一个随机过程,M是一个随机矩阵,允许应用所有的随机过程理论。 随机理论的一个结果是,矩阵M存在一个平稳向量v使得v·M=v成立。一般地,我们可以指定v是标准化的,因此它的4个组成部分之和为1。现在可以将 和 的均衡收益指定为“和”,从而可以比较两种策略“P”和“Q”的长期收益.第ij项Mn给出了X和Y相遇的结果的概率为j,给定前面相遇n步的概率是i。当n趋于无穷时,M收敛于一个具有固定值的矩阵,并且j趋向一个长期概率,与i独立。换句话说, M∞的行将是相同的,从而给出了重复囚徒困境的长期均衡结果概率,而不需要明确地计算大量的相互作用。可以看出,v是Mn特别是M∞的平稳向量,因此M∞的每一行都等于v。因此平稳向量指定了X的均衡结果概率。定义Sx={R,S,T,P}和Sy={R,S,T,P}作为{cc,cd,dc,dd}结果的短期收益向量(从X的角度来看) ,现在可以将X和Y的均衡收益指定为sx=v·Sx和sy=v·Sy,使得P、Q两种策略的长期收益可以比较。 零决定策略维恩图 Venn diagram中讨论了重复囚徒困境(IPD)中零决定策略(ZD)、合作策略和背叛策略之间的关系。合作策略总是与其他合作策略相互配合,而背叛策略总是与其他背叛策略相抵触。这两种策略都包都含在强选择下稳健的策略子集,这意味着当它们驻留在一个种群中时,没有选择其他的记忆-1策略来入侵此策略。只有合作策略包含在始终稳健的策略子集,意味着无论选择强项还是弱项,都不会选择其他任何记忆-1策略来入侵和替换此策略。零决定策略和良好的合作策略之间的交集是一组宽松的零决定策略。勒索策略是零决定策略和非稳健背叛策略的交集。针锋相对是合作、背叛和零决定策略的交集。
针锋相对是一种零决定策略,在不获得超越其他玩家优势的意义下是“公平”的。然而,零决定策略空间还包含这样的策略:在两个玩家的情况下,可以允许一个玩家单方面设置另一个玩家的分数,或者强迫进化的玩家获得比他自己的分数低一些的收益。被勒索的玩家可能会背叛,但会因此获得较低的回报并且受到伤害。因此,勒索的解决方案将重复囚徒困境转化为一种最后通牒博弈 ultimatum game。具体来说,X能够选择一种策略,对于这种策略,D(P,Q,βsy+γU)=0单方面地将sy设置为一个特定值范围内的特定值,与Y的策略无关,为X提供了“勒索”玩家Y的机会(反之亦然)。(事实证明,如果X试图将sx设置为一个特定的值,那么可能的范围要小得多,只包括完全合作或完全叛变。)
理论和模拟证实,超过一个临界种群规模,零决定勒索在与更多合作策略的进化竞争中会失败,因此,种群越大,种群的平均收益就越大。此外,在某些情况下,勒索者甚至可能通过帮助打破统一的背叛者与使用“赢-保持-输”策略的转换玩家之间的对峙而促进合作。
连续重复囚徒困境关于重复囚徒困境的研究大多集中在离散情况下,在这种情况下,参与者要么合作,要么背叛,因为这个模型分析起来比较简单。然而,一些研究人员已经研究了连续重复囚徒困境模型,在这个模型中,玩家能够对另一个玩家做出可变的贡献。乐 Le和博伊德 Boyd发现,在这种情况下,合作比离散重复的囚徒困境更难发展。这个结果的基本直觉很简单: 在一个持续的囚徒困境中,如果一个人群开始处于非合作均衡状态,那么与非合作者相比,合作程度稍高的玩家不会从相互配合中获益。相比之下,在离散的囚徒困境中,相对于非合作者,针锋相对的合作者在非合作均衡中相互配合会获得巨大的回报。由于自然界可以提供更多的机会来进行各种各样的合作,而不是严格地将合作或背叛分为两类,因此连续的囚徒困境可以帮助解释为什么现实生活中针锋相对的合作的例子在自然界中极其罕见。(例如,哈默斯坦 Hammerstein )。
稳定策略的出现玩家似乎不能协调相互合作,因此常常陷入劣等而稳定的背叛策略。这样,重复回合可以促进稳定策略的发展。重复回合往往产生新颖的策略,这对复杂的社会互动有影响。其中一个策略就是“赢-保持-输”的转变。这个策略比一个简单的针锋相对策略要好 –也就是说,如果你能逃脱作弊的惩罚,就重复这个行为,如果你被抓住了,就改变策略。
现实生活的例子 囚犯的环境似乎是人为的,但实际上,在人类交往以及自然界的交互中有许多具有相同收益矩阵的例子。因此,囚徒困境是经济学、政治学、社会学等社会科学以及动物行为学、进化生物学等生物学研究的热点问题。许多自然过程都被抽象为生物进行无休止的囚徒困境博弈的模型。囚徒困境这种广泛的适用性让博弈变得非常重要。 环境研究在环境研究中,囚徒困境在诸如全球气候变化等危机中显而易见。有人认为,所有国家都将从稳定的气候中受益,但是每一个国家通常都在限制二氧化碳排放方面犹豫不决。人们错误地认为,如果所有国家的行为都改变,任何一个国家保持目前的行为所带来的直接好处都会大于所谓的最终好处,这就解释了2007年气候变化方面的僵局。
动物许多动物的合作行为可以理解为囚徒困境的一个例子。通常动物会建立长期的伙伴关系,这种关系可以更具体地模拟为重复囚徒困境。例如,孔雀鱼成群结队地合作监察捕食者,它们被认为是在惩罚不合作的监察者。
心理学在成瘾研究/行为经济学中,乔治·安斯利 George Ainslie指出,可以将成瘾视为成瘾者现在和未来自我之间的跨期囚徒困境问题。在这种情况下,背叛意味着复发,很容易看出,目前和未来都没有背叛是迄今为止最好的结果。如果一个人今天戒了,但在将来又复吸,这是最糟糕的结果 –从某种意义上来说,今天戒瘾所包含的纪律和自我牺牲已经被“浪费”了,因为未来的复吸意味着瘾君子又回到了他开始的地方,他将被迫重新开始(这相当令人沮丧,也使得重新开始更加困难)。今天和明天复发是一个稍微“好一点”的结果,因为尽管瘾君子仍然上瘾,但他们没有努力去尝试停止。最后一种情况是,现在与成瘾斗争的任何人都会熟悉现在的成瘾行为,而在明天放弃。这里的问题是(和其他囚徒困境问题一样),背叛“今天”有一个明显的好处,但明天这个人将面临同样的囚徒困境问题,同样明显的好处是背叛,最终导致一连串无休止的背叛。
经济学囚徒困境被称为社会心理学中的“大肠杆菌”,它被广泛用于研究寡头垄断竞争和集体行动来产生集体利益等问题。
运动Sport体育运动中的兴奋剂被认为是囚徒困境的一个例子。
国际政治在国际政治理论中,囚徒困境经常被用来证明战略现实主义的一致性,这种战略现实主义认为,在国际关系中,由于国际无政府状态,所有国家(无论其国内政策或公开宣称的意识形态如何)都会为了自身的理性利益来行动。一个典型的例子是类似冷战和类似冲突的军备竞赛。在冷战期间,北约和华约组织的对立联盟都可以选择武装或解除武装。从双方的观点来看,解除武装而对手继续武装可能会导致军事劣势和被歼灭。相反,如果选择武装而对手已经解除了武装,那么就会获得优势。如果双方都选择武装自己,那么任何一方都承担不起攻击对方的代价,但是双方都为发展和维持核武库付出了高昂的代价。如果双方都选择裁军,战争就可以避免,也不会有任何代价。
多玩家困境许多现实生活中的困境牵涉到多个参与者。尽管具有隐喻性,但哈丁的公地悲剧 tragedy of the commons可以看作是囚徒困境多个参与者的一个例子: 每个村民做出选择是为了个人利益还是克制。对于一致(甚至频繁)叛变的集体回报是非常低的(代表了对“公共资源”的破坏)。大多数人可能会遇到的公地困境是在一个共用的房子里洗碗。通过不洗碗,个人可以节省时间,但如果每个居民都选择这种行为,那么集体的代价是任何人都没有干净的盘子。
相关博弈 封闭袋子交换囚徒困境是一个公文包式的交换。
朋友还是敌人?朋友还是敌人?是一个竞赛节目,从2002年至2005年在美国的Game show Network播出。这是囚徒困境博弈在真人身上测试的一个例子,只是在人为的环境中。在游戏节目中,有三对选手参加比赛。当一对被淘汰时,他们会玩一个类似囚徒困境的游戏来决定奖金如何分配。如果他们都合作(朋友) ,他们分享奖金50-50。如果一方合作而另一方背叛(敌人) ,那么叛变者将得到所有的奖金,而合作者将一无所获。如果双方都背叛,那么双方都将一无所有。请注意,奖励矩阵与上面给出的标准矩阵略有不同,因为“双方都背叛”和“合作而对方背叛”情况下的奖励是相同的。与标准囚徒困境中的严格均衡相比,这使得“两个都背叛”情况成为一个弱均衡。如果一个参赛者知道他们的对手将投票给“敌人” ,那么他们自己的选择不会影响他们自己的奖金。从特定意义上讲,“朋友还是敌人”节目在囚徒困境和“胆小鬼”博弈之间有一个奖励模型。 奖励矩阵 英国电视节目《相信我 Trust Me》、《阴影 Shafted》、《银行工作 The Bank Job》和《黄金球 Golden Balls》以及美国电视节目《单身公寓 Bachelor Pad》和《全部拿走 Take It All》也采用了这种奖励矩阵。一个经济学家团队分析了“黄金球”系列的游戏数据,他们发现,现实生活中,合作对于金额而言“惊人地高” ,但在游戏的背景下,相对较低。 重复雪堆来自洛桑大学和爱丁堡大学的研究人员认为,“重复雪堆游戏”可能更能反映现实世界的社会状况。虽然这个模型实际上是一个胆小鬼博弈。在这个模型中,由于背叛可以降低被剥削的风险,个体总是从合作选择中获益。这个雪堆游戏可以设想两个司机被困在雪堆的两侧,每个司机都可以选择铲雪清理道路,或者留在自己的车里。一个玩家的最高回报来自于让对手清除所有的积雪,但是仍然可以从对手的工作中得到回报。
协调博弈在协调博弈中,参与者必须协调自己的策略以获得一个好的结果。一个例子是两辆车在暴风雪中突然相遇,每辆车必须选择是左转还是右转。如果两辆车都向左转弯,或者都向右转弯,那么两辆车就不会相撞。当地的左右向交通惯例有助于协调他们的行动。
不对称的囚徒困境一个更一般的博弈集是不对称的。就像在囚徒困境中一样,最好的结果是合作,而背叛是有动机的。与对称的囚徒困境不同的是一个玩家比另一个玩家有更多的损失或收获。这样的博弈被描述为囚徒困境,其中一个囚徒有不在场证明,这就是术语“不在场证明游戏”的由来。
编者推荐
百科项目志愿者招募 如果你有意参与更加系统精细的分工,扫描二维码填写报名表,我们期待你的加入! 来源:集智百科 |
|
来自: HAINABAICHIAN > 《逆商——AQ》