“囚徒困境”是关于博弈论的一个故事(模型),在哲学、伦理学、社会学、经济学乃至生物学学科中,都获得了极为广泛的应用(该理论诞生自1950年)。
一天一位富翁被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,但是他们都矢口否认曾杀过人,辩称是发现了富翁被杀后,顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。检察官分别对他们这样说的:
“你的偷盗罪确凿,所以可以判你1年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你3个月的监禁,但你的同伙要被判10年刑。如果你拒不坦白,而被同伙检举,那么你就将被判10年刑,他只判3个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”

囚徒困境中的纳什均衡▲
当然最好的策略是双方都抵赖,大家都只被判1年,但是,由于两人处于隔离的情况下无法串供,而且即使他们能交谈,还是未必能够尽信对方不会反水。而选择“沉默”将会使自己面临“被判10年”的风险。试想下这种情况中两名理性囚徒会如何做出选择:
※若对方沉默,背叛会让我获释,选择背叛。
※若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以还是选择背叛。
鉴于二人面对的情况一样,所以这场博弈中唯一可达到的平衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
如此一来,在以上四种行动选择组合中,(抵赖、抵赖)是“帕累托最优”,因为该种状况外的其他状况都会使一个人的境况变差。而这样(坦白,坦白)是一个占优战略均衡,即如此都被判5年被称为“纳什均衡”,也叫非合作均衡。从这里可以引出一个悖论:损人却不利己。它阐明了为什么“在合作对双方都有利时,保持合作也是困难的”。
按照囚徒困境,合作最好,背叛则两败俱伤,但最终还是会选择背叛。而在现实中,类似囚徒困境的场景常常出现,但更多的结局则是合作而不是背叛。为什么?
可能的原因是,通常困境不止这一次。
比如就像“电影”中那样,两个囚徒属于同一个组织,背叛之后将会被组织追责.....如此,他们可能需要重复博弈,或者受到更强大的制约。这样合作就比较容易出现了。
实际生活里我们会面临多次重复的囚徒困境,博弈被反复地进行,因此,每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时就会被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
简而言之,为避免“冤冤相报何时了”,纳什均衡将趋向于帕累托最优。
善意的决策可能吃亏,但也会成为别人今后和你合作时进行决策的依据,所以,与其被迫在得到惩罚之后才选择合作,不如大家都遵守游戏规则。当然,现实生活的复杂程度也许会超出我们的想象,我们也不能单纯地信任别人。
现实中囚徒困境可以广为地使用,更是说明这种博弈的重要性。以下为例:
关税战:
两个国家,在关税上可以有以两个选择:
提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)
双赢局面:
美国《60分钟时事》报道:曾经在一段长达52周的时间里,可口可乐和百事可乐分别放了26期折扣券,其间没有出现两家同时发放折扣券的现象。
若无事先合作(或默契),这种情况发生的可能性低于四千万亿分之一。