分享

论日常生活中的“纳什均衡”

 知识天堂360 2014-09-17
      “囚徒困境”是非合作博弈的均衡即“纳什均衡”的最经典的例子。从这个例子,我们能知道“纳什均衡”的精要所在。本文从“囚徒困境”案例出发,总结出“纳什均衡”的原理,并由此去探寻日常生活中的非合作博弈。 
  1950年和 1951年纳什的两篇关于非合作博弈的重要论文,彻底改变了人们对竞争和市场的看法。他证明了非合作博弈极其均衡解 ,并证明了均衡解的存在性,即著名的“纳什均衡”,从而揭示了博弈均衡与经济均衡的内在联系奠定了现代非合作博弈论的基石。
  要了解纳什均衡,首先要知道什么是非合作博弈问题。“囚徒困境”是该问题最经典的例子,我们也从该例为切入点进行探讨:
  首先,一个完整的博弈应当包括五个方面的内容:第一,博弈的参加者,即博弈过程中独立决策、独立承担后果的个人和组织;第二,博弈信息,即博弈者所掌握的对选择策略有帮助的情报资料;第三,博弈方可选择的全部行为或策略的集合;第四,博弈的次序,即博弈参加者做 出策略选择的先后;第五,博弈方的收益,即各博弈方做出决策选择后的所得和所失。
  “囚徒困境”:两个嫌疑犯(A和 B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判 1O年;如果都不坦白则因证据不足各判1年。
  在这个例子里,博弈的参加者就是两个嫌疑犯 A和 B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和 B均坦白或均不坦白、A坦白 B不坦白或者 B坦白A不坦白,是博弈的结果。在此,两个嫌疑犯 A和 B面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判 1年。但由于两人处于隔离情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利 己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到最好的解决办法——释放,但前提是同伙抵赖,显然要比自己抵赖要坐 1O年牢好得多。这种策略是损人利 己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐 1O年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判 8年,总 比被判 10年好。结果 ,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(各被判1年刑)就不会 出现。这样两人都选择坦白的策略以及因此被判 8年 的结局被称为“纳什均衡”,也叫非合作均衡因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发 ,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇 了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利 己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。
  从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象:
  (1)电信价格竞争 
  根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商 A与B,他们在电信某一领域展开竞争,一开始的价格都是 PoA(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则 刚成立不久 ,翅膀还没长硬 ,是政府为了打破垄断鼓励竞争而筹建起来的。 
  正因为 B是政府扶植起来鼓励竞争的,所以 B得到了政府的一些优惠,其中就有 B的价格可以比Po低 10%。这一举动,还不会对 A产生多大的影响,因为 A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但由于 B在价格方面的优势,市场份额逐步壮大,到了一定程度对 A造成了影响。这时候,A该怎么做?不妨假定: 
  A降价而B维持,则A获利 15,B损失5,整体获利10; 
  A维持且B也维持,则 A获利5,B获利10,整体获利15; 
  A维持而 B降价,则 A损失 10,B获利 15,整体获利5;
  A降价且 B也降价,则 A损失 5,B损失 5,整体损失10。
  从 A角度看 ,显然降价要 比维持好,降价至少可以保证比 B好,在概率均等的情况下,A降价的收益为 15 x50%一5 x 50% =5,维持的收益为 5 x 50%一10 x 50% =一2.5,为了自身利益的最大化,A就不可避免地选择了降价。从 B角度看,效果也一样,降价同样比维持好,其降价收益为 5,维持收益为2.5,它也同样会选择降价。在这轮博弈中,A、B都将降价作为策略,因此各损失 5,整体损失 10,整体收益是最差的。这就是此博弈最终所出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象,各个局部都寻求利益的最大化,而整体利益却不是最优,甚至是最差。 
  许多其他行业的价格竞争都是典型的囚徒困境现象,如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。 
  (2)OPEC组织成员国之间的合作与背叛 
  “囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。 
  上述我们在对电信价格竞争的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降价的纳什均衡。而在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。比如中东石油输出国组织(Organization of PetroleumExporting Countries简称 OPEC)的成立,本身就是要限制各石油生产国的产量,以保持石油价格,以便获取利润,是合作的产物。OPEC之所以能够成立,各组织成员国之间之所以能够合作,是因为囚徒困境如果是一次性博弈的话,基于个人利益最大化,得到纳什均衡解,但如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解 ,合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解。这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。 
    但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commit.r em),向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空口诺言,而是实实在在的付出。所以合作是非常困难的。所以 OPEC组织经常会有成员国不遵守组织的协定私 自增加石油产量。每个成员国都这样想,只要他们不增加产量,我增加一点点产量对价格没什么影响,结果每个国家都增加产量,造成石油价格下跌 ,大家的利润都受到损失。当然,一些产量增加较少的国家损失更多,于是也更加大量生产,造成价格进一步下降——结果,陷入一个困境大家都增加产量,价格下跌,大家再增加产量,价格再下跌理论上,几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟 )不是一个纳什均衡没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?理论上,如果是无限期的合作 ,双方考虑长远利益他们的合作是会成功的。但只要是有限次的合作 ,合作就不会成功。比如合作 10次,那么在第九次博弈参与人就会采取不合作态度 ,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作,那么就很可能在第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作……一直到,从第一次开始大家都不会采取合作态度。 还存在其他一些“非合作博议”的情况:  
  (1)污染博弈  
  假如市场经济中存在着污染,但政府并没有管制的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价也绝不会主动增加环保设备投资。按照看不见的手的原理 ,所有企业都会从利己的 目的出发,采取不顾环境的策略 ,从而进入“纳什均衡”状态。如果一个企业从利他的目的出发,投资治理污染 ,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加 ,价格就要提高,它的产品就没有竞争力 ,甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到 20世纪 90年代中期 ,中国乡镇企业的盲 目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的策略组合。企业在这种情况下,获得与高污染同样的利润,但环境将更好。  
  (2)贸易自由与壁垒  
  这个问题对于刚刚加入 WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题,也是一个“纳什均衡”,这个均衡是贸易双方采取不合作博弈的策略,结果使双方因贸易战受到损害。x国试图对 Y国进行进口贸易限制,比如提高关税 ,则 Y国必然会进行反击,也提高关税,结果谁也没有捞到好处。反之,如 x和 Y能达成合作性均衡,即从互惠互利的原则出发,双方都减少关税限制,结果大家都从贸易 自由中获得了最大利益,而且全球贸易的总收益也增加了。  
  以上是运用博弈论中的经典案例“囚徒困境”对现实经济生活的一些简单的理论上的分析,虽然在现实生活当中影响人们决策和态度的因素很多,但是 ,博弈论作为现代经济学的前沿领域,始终是一个强有力的分析工具。  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多