博弈论经典案例：两头猪与囚徒困境

哈哈哈一笑 2012-08-28

展开全文

学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例——囚徒困境，非常耐人回味。

----“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙（即与警察合作，从而背叛他的同伙），或者保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

----那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

假设猪圈里有两头猪同在一个食槽里进食，一头大猪，一头小猪。我们假设它们都是有着认识和实现自身利益的充分理性的“智猪”，猪圈两头距离很远，一头安装了一只控制饲料供应的踏板，另一头是饲料的出口和食槽。猪每踩一下踏板，另一头就会有相当于10份的饲料进槽，但是踩踏板以及跑到食槽所需要付出的“劳动”，加起来要消耗相当于2份的饲料。

两头猪可以选择的策略有两个：自己去踩踏板或等待另一头猪去踩踏板。如果某一头猪做出自己去踩踏板的选择，不仅要付出劳动，消耗掉2份饲料，而且由于踏板远离饲料，它将比另一头猪后到食槽，从而减少吃到饲料的数量。我们假定：若大猪先到（即小猪踩踏板），大猪将吃到9份的饲料，小猪只能吃到1份的饲料，最后双方得益为【9，-1】；若小猪先到（即大猪踩踏板），大猪和小猪将分别吃到6份和4份的饲料。最后双方得益为【4，4】；若两头猪同时踩踏板，同时跑向食槽，大猪吃到7份的饲料，小猪吃到3份的饲料，即双方得益为【5，1】；若两头猪都选择等待，那就都吃不到饲料，即双方得益均为0。

智猪博弈的收益矩阵可以用下表所示、表中的数字表示不同选择下每头猪所能吃到的饲料数量减去前去踩踏板的成本之后的净收益水平。

大猪行动大猪等待

小猪行动 5, 1 9, -1

小猪等待 4, 4 0, 0

智猪博弈的收益矩阵

那么这个博弈的均衡解是什么呢?这个博弈的均衡解是大猪选择去踩踏板，小猪选择等待，这时，大猪和小猪的净收益水平均为4个单位。这是一个“多劳不多得，少劳不少得”的均衡。

在找出上述智猪博弈的均衡解时，我们实际上是按照“重复剔除严格劣势策略”的逻辑思路进行的。这一思路可以归纳如下：首先找出某参与人的严格劣势策略，将它剔除，重新构造一个不包括已剔除策略的新博弈；然后，继续剔除这个新的博弈中某一参与人的严格劣势策略；重复进行这一过程，直到剩下唯一的策略组合为止。剩下这个唯一的策略组合，就是这个博弈的均衡解，称为“重复剔除的占有策略均衡”。

在智猪博弈收益矩阵中可以看出：小猪踩踏板其能得到l份甚至损失1份，不踩踏板反而能得到4份。对小猪而言，无论大猪是否踩动踏板，小猪采取“搭便车”策略，也就是舒舒服服地等在食槽边，都是最好的选择。

大猪行动大猪等待

小猪行动 5, 1 9, -1

小猪等待 4, 4 0, 0

剔除后的智猪博弈的收益矩阵

由于小猪有“等待”这个优势策略，大猪只剩下了两个选择：等待就吃不到；踩踏板得到4份。所以“等待”就变成了大猪的劣势策略，当大猪知道小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强，只好为自己的4份饲料不知疲倦地奔忙于踏板和食槽之间。

也就是说，无论大猪选择什么策略，选择踩踏板对小猪都是一个严格劣势策略，我们首先加以剔除。在剔除小猪踩踏板这一选择后的新博弈中，小猪只有等待一个选择，而大猪则有两个可供选择的策略。在大猪这两个可供选择的策略中，选择等待是一个严格劣势策略，我们再剔除新博弈中大猪的严格劣势策略等待。剩下的新博弈中只有小猪等待、大猪踩踏板这一个可供选择的策略，这就是智猪博弈的最后均衡解，达到重复剔除的优势策略均衡。

智猪博弈与囚徒困境的不同之处在于：囚徒困境中的犯罪嫌疑人都有自己的严格优势策略；而智猪博弈中，只有小猪有严格优势策略，而大猪没有。

在一场博弈中，如果每个参与人都有严格优势策略。那么严格优势策略均衡是合乎逻辑的。但是在绝大多数博弈中。这种严格优势策略均衡并不存在。而只存在重复剔除的优势策略均衡。所以，智猪博弈听起来似乎有些滑稽，但是它却是一个根据优势策略的逻辑找出均衡的博弈模型。