博弈论的基本概念

昵称5508323 2011-01-16

展开全文

博弈论的基本概念　　博弈要素:

　　(1)决策人：在博弈中率先作出决策的一方，这一方往往依据自身的感受、经验和表面状态优先采取一种有方向性的行动。

　　(2)　对抗者：在博弈二人对局中行动滞后的那个人，与决策人要作出基本反面的决定，并且他的动作是滞后的、默认的、被动的，但最终占优。他的策略可能依赖于决策人劣势的策略选择，占去空间特性，因此对抗是唯一占优的方式，实为领导人的阶段性终结行为。

　　(3)局中人（players）：在一场竞赛或博弈中，每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人博弈”。

　　(4)策略(strategies)：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈”。

　　(5)得失(payoffs)：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。所以，一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。

　　(6)次序（orders）：各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。

　　(7)博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。所谓纳什均衡，它是一稳定的博弈结果。

　　纳什均衡(Nash Equilibrium)：在一策略组合中，所有的参与者面临这样一种情况，当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略他的支付将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中，当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a，那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。

　　这样，“均衡偶”的明确定义为：一对策略a*(属于策略集A)和策略b*（属于策略集B）称之为均衡偶，对任一策略a(属于策略集A)和策略b（属于策略集B），总有：偶对（a, b*）≤偶对(a*,b*)≥偶对（a*，b）。

　　对于非零和博弈也有如下定义：一对策略a*（属于策略集A）和策略b*（属于策略集B）称为非零和博弈的均衡偶，对任一策略a(属于策略集A）和策略 b（属于策略集B），总有：对局中人A的偶对（a, b*） ≤偶对(a*,b*);对局中人B的偶对（a*，b）≤偶对(a*,b*)。

　　有了上述定义，就立即得到纳什定理：

　　任何具有有限纯策略的二人博弈至少有一个均衡偶。这一均衡偶就称为纳什均衡点。

　　纳什定理的严格证明要用到不动点理论，不动点理论是经济均衡研究的主要工具。通俗地说，寻找均衡点的存在性等价于找到博弈的不动点。

　　纳什均衡点概念提供了一种非常重要的分析手段，使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。

　　但纳什均衡点定义只局限于任何局中人不想单方面变换策略，而忽视了其他局中人改变策略的可能性，因此，在很多情况下，纳什均衡点的结论缺乏说服力，研究者们形象地称之为“天真可爱的纳什均衡点”。

　　塞尔顿（R·Selten)在多个均衡中剔除一些按照一定规则不合理的均衡点，从而形成了两个均衡的精炼概念：子博弈完全均衡和颤抖的手完美均衡。

夏普里值

　　考虑这样一个合作博弈：a、b、c、投票决定如何分配100万，他们分别拥有50％、40％、10％的权力，规则规定，当超过50%的票认可了某种方案时才能通过。那么如何分配才是合理的呢?按票力分配，a50万、b40万、c10万c向a提出：a70万、b0、c30万b向a提出：a80万、b20万、c0……

　　权力指数：每个决策者在决策时的权力体现在他在形成的获胜联盟中的“关键加入者”的个数，这个“关键加入者”的个数就被称为权利指数。

　　夏普里值（Shapley value）：在各种可能的联盟次序下，参与者对联盟的边际贡献之和除以各种可能的联盟组合。

　　次序 abc acb bac bca cab cba

　　关键加入者 b c a a a a

　　由此计算出a,b,c的夏普里值分别为4/6,1/6,1/6

　　所以a,b,c应分别获得100万的2/3,1/6,1/6

智猪博弈

　　智猪博弈（Pigs’payoffs）讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

　　那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

　　原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

　　“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的食物数量和踏板与投食口之间的距离。

　　如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗？试试看。

　　改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。

　　如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。

　　改变方案二：增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。

　　对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。

　　改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。

　　对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。

　　原版的“智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。

　　比如，公司的激励制度设计，奖励力度太大，又是持股，又是期权，公司职员个个都成了百万富翁，成本高不说，员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大，而且见者有份（不劳动的“小猪”也有），一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法，奖励并非人人有份，而是直接针对个人（如业务按比例提成），既节约了成本（对公司而言），又消除了“搭便车”现象，能实现有效的激励。

　　许多人并未读过“智猪博弈”的故事，但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户；等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资；公司里不创造效益但分享成果的人，等等。因此，对于制订各种经济管理的游戏规则的人，必须深谙“智猪博弈”指标改变的个中道理。

编辑本段博弈的类型

　　博弈的分类根据不同的基准也有不同的分类。一般认为，博弈主要可以分为合作博弈和非合作博弈。　合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

　　从行为的时间序列性，博弈论进一步分为静态博弈、动态博弈两类：　静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；

　　动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。通俗的理解："囚徒困境"就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈

　　按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。　完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。

　　不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。

　　目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium)，子博弈精炼纳什均衡（subgame perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium)，精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。

　　博弈论还有很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型，等等。

编辑本段意义

　　博弈论的研究方法和其他许多利用数学工具研究社会经济现象的学科一样，都是从复杂的现象中抽象出基本的元素，对这些元素构成的数学模型进行分析，而后逐步引入对其形势产影响的其他因素，从而分析其结果。

　　基于不同抽象水平，形成三种博弈表述方式，标准型、扩展型和特征函数型利用这三种表述形式，可以研究形形色色的问题。因此,它被称为“社会科学的数学”从理论上讲，博弈论是研究理性的行动者相互作用的形式理论，而实际上正深入到经济学、政治学、社会学等等，被各门社会科学所应用。

　　博弈论是指某个个人或是组织，面对一定的环境条件，在一定的规则约束下，依靠所掌握的信息，从各自选择的行为或是策略进行选择并加以实施，并从各自取得相应结果或收益的过程，在经济学上博弈论是个非常重要的理论概念。

　　什么是博弈论？古语有云，世事如棋。生活中每个人如同棋手，其每一个行为如同在一张看不见的棋盘上布一个子，精明慎重的棋手们相互揣摩、相互牵制，人人争赢，下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们 “出棋” 着数中理性化、逻辑化的部分，并将其系统化为一门科学。换句话说，就是研究个体如何在错综复杂的相互影响中得出最合理的策略。事实上，博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。数学家们将具体的问题抽象化，通过建立自完备的逻辑框架、体系研究其规律及变化。这可不是件容易的事情，以最简单的二人对弈为例，稍想一下便知此中大有玄妙：若假设双方都精确地记得自己和对手的每一步棋且都是最“理性” 的棋手，甲出子的时候，为了赢棋，得仔细考虑乙的想法，而乙出子时也得考虑甲的想法，所以甲还得想到乙在想他的想法，乙当然也知道甲想到了他在想甲的想法…

　　面对如许重重迷雾，博弈论怎样着手分析解决问题，怎样对作为现实归纳的抽象数学问题求出最优解、从而为在理论上指导实践提供可能性呢？现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立，1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》，标志着现代系统博弈理论的初步形成。对于非合作、纯竞争型博弈，诺伊曼所解决的只有二人零和博弈--好比两个人下棋、或是打乒乓球，一个人赢一着则另一个人必输一着，净获利为零。在这里抽象化后的博弈问题是，已知参与者集合（两方），策略集合（所有棋着），和盈利集合（赢子输子），能否且如何找到一个理论上的“解” 或“平衡” ，也就是对参与双方来说都最“合理” 、最优的具体策略？怎样才是“合理” ？应用传统决定论中的“最小最大” 准则，即博弈的每一方都假设对方的所有功略的根本目的是使自己最大程度地失利，并据此最优化自己的对策，诺伊曼从数学上证明，通过一定的线性运算，对于每一个二人零和博弈，都能够找到一个“最小最大解” 。通过一定的线性运算，竞争双方以概率分布的形式随机使用某套最优策略中的各个步骤，就可以最终达到彼此盈利最大且相当。当然，其隐含的意义在于，这套最优策略并不依赖于对手在博弈中的操作。用通俗的话说，这个著名的最小最大定理所体现的基本“理性” 思想是“抱最好的希望，做最坏的打算” 。

　　博弈论不仅仅存在于数学的运筹学中，也正在经济学中占据越来越重要的地位，但如果你认为博弈论的应用领域仅限于此的话，那你就大错了。实际上，博弈论甚至在我们的工作和生活中无处不在！在工作中，你在和上司博弈，也在和下属博弈，你也同样会跟其他相关部门人员博弈；而要开展业务，你更是在和你的客户以及竞争对手博弈。在生活中，博弈仍然无处不在。博弈论代表着一种全新的分析

包罗·萨缪尔逊

方法和全新的思想。

　　诺贝尔经济学奖获得者包罗·萨缪尔逊如是说：

　　要想在现代社会做个有价值的人,你就必须对博弈论有个大致的了解。

　　也可以这样说,要想赢得生意,不可不学博弈论;要想赢得生活,同样不可不学博弈论。

编辑本段应用举例

纳什均衡

　　1950年和1951年纳什的两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石，后来的博弈论研究基本上都沿着这条主线展开的。

　　1944年冯·诺依曼与奥斯卡·摩根斯特恩合著的巨作《博弈论与经济行为》出版，标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如，1838年古诺（Cournot）简单双寡头垄断博弈；1883年伯特兰和1925年艾奇沃奇思研究了两个寡头的产量与价格垄断；2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽，其特点是零星的，片断的研究，带有很大的偶然性，很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法，奠定了这门学科的理论基础。合作型博弈在20世纪50年代达到了巅峰期。然而，诺依曼的博弈论的局限性也日益暴露出来，由于它过于抽象，使应用范围受到很大限制，在很长时间里，人们对博弈论的研究知之甚少，只是少数数学家的专利，所以，影响力很有限。正是在这个时候，非合作博弈———“纳什均衡”应运而生了，它标志着博弈论的新时代的开始！纳什不是一个按部就班的学生，他经常旷课。据他的同学们回忆，他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课，但纳什争辩说，至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者，可是，没上几次课，纳什就认定这门课不符合他的口味。于是，又走人了。然而，纳什毕竟是一位英才天纵的非凡人物，他广泛涉猎数学王国的每一个分支，如拓扑学、代数几何学、逻辑学、博弈论等等，深深地为之着迷。纳什经常显示出他与众不同的自信和自负，充满咄咄逼人的学术野心。1950年整个夏天纳什都忙于应付紧张的考试，他的博弈论研究工作被迫中断，他感到这是莫大的浪费。殊不知这种暂时的“放弃”，使原来模糊、杂乱和无绪的若干念头，在潜意识的持续思考下，逐步形成一条清晰的脉络，突然来了灵感！这一年的10月，他骤感才思潮涌，妙笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在1950年和1951年的两篇论文之中(包括一篇博士论文)。1950年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文，1950年11月刊登在美国全国科学院每月公报上，立即引起轰动。说起来这全靠师兄戴维·盖尔之功，就在遭到冯·诺依曼贬低几天之后，他遇到盖尔，告诉他自己已经将冯·诺依曼的“最小最大原理”（minimax solution）推到非合作博弈领域，找到了普遍化的方法和均衡点。盖尔听得很认真，他终于意识到纳什的思路比冯·诺伊曼的合作博弈的理论更能反映现实的情况，而对其严密优美的数学证明极为赞叹。盖尔建议他马上整理出来发表，以免被别人捷足先登。纳什这个初出茅庐的小子，根本不知道竞争的险恶，从未想过要这么做。结果还是盖尔充当了他的“经纪人”，代为起草致科学院的短信，系主任列夫谢茨则亲自将文稿递交给科学院。纳什写的文章不多，就那么几篇，但已经足够了，因为都是精品中的精品。这一点也是值得我们深思的。国内提一个教授，要求在“核心的刊物”上发表多少篇文章。按照这个标准可能纳什还不一定够资格。

　　1996年诺贝尔经济学奖得主莫尔里斯当牛津大学艾奇沃思经济学讲座教授时也没有发表过什么文章，特殊的人才，必须有特殊的选拔办法。

　　纳什在上大学时就开始从事纯数学的博弈论研究，1948年进入普林斯顿大学后更是如鱼得水。20岁出头已成为闻名世界的数学家。特别是在经济博弈论领域，他做出了划时代的贡献，是继冯·诺依曼之后最伟大的博弈论大师之一。他提出的著名的纳什均衡的概念在非合作博弈理论中起着核心的作用。后续的研究者对博弈论的贡献，都是建立在这一概念之上的。由于纳什均衡的提出和不断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。

囚徒困境

　　在博弈论中，含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”（prisoners’ dilemma）博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑8年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表2.2给出了这个博弈的支付矩阵。

　　表2.2 囚徒困境博弈 [Prisoner's dilemma]

A╲B	坦白	抵赖
坦白	-8，-8	0，-10
抵赖	-10，0	-1，-1

　我们来看看这个博弈可预测的均衡是什么。对A来说，尽管他不知道B作何选择，但他知道无论B选择什么，他选择“坦白”总是最优的。显然，根据对称性，B也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。在表2.2中的四种行动选择组合中，（抵赖、抵赖）是帕累托最优的，因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。

　　要了解纳什的贡献，首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子，每本书上的例子都大同小异。

　　博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局，常常寓深刻道理于游戏之中。所以，多从我们的日常生活中的凡人小事入手，以我们身边的故事做例子，娓娓道来，并不乏味。话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢？他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当·斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月，但前提是同伙抵赖，显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐10年牢。太不划算了！因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判5年，总比被判10年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略（抵赖）和结局（被判1年刑）就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。因为，每一方在选择策略时都没有“共谋”（串供），他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他对手的利益。也就是说，这种策略组合由所有局中人（也称当事人、参与者）的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言：“通过追求(个人的)自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略”。但它必须符合以下黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。

　　从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军备竞赛、污染等等。一般的博弈问题由三个要素所构成：即局中人(players)又称当事人、参与者、策略等等的集合，策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择，每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。

价格战博弈

　　现在我们经常会遇到各种各样的家电价格大战，彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战，百姓都会“没事儿偷着乐”。在这里，我们可以解释厂家价格大战的结局也是一个“纳什均衡”，而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的，即是一个“纳什均衡”。这个结果可能对消费者是有利的，但对厂商而言是灾难性的。所以，价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题，一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战，作为一种敌对博弈论(rivalry game)其结果会如何呢？每一个企业，都会考虑采取正常价格策略，还是采取高价格策略形成垄断价格，并尽力获取垄断利润。如果垄断可以形成，则博弈双方的共同利润最大。这种情况就是垄断经营所做的，通常会抬高价格。另一个极端的情况是厂商用正常的价格，双方都可以获得利润。从这一点，我们又引出一条基本准则：“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上，完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下，每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中，每一企业要使利润最大化，消费者要使效用最大化，结果导致了零利润，也就是说价格等于边际成本。在完全竞争的情况下，非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格，那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。

污染博弈

　　假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。

贸易战博弈

　　贸易战对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题，也是一个“纳什均衡”，这个均衡是贸易双方采取不合作博弈的策略，结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限制，比如提高关税，则Y国必然会进行反击，也提高关税，结果谁也没有捞到好处。反之，如X和Y能达成合作性均衡，即从互惠互利的原则出发，双方都减少关税限制，结果大家都从贸易自由中获得了最大利益，而且全球贸易的总收益也增加了。

　　博弈论--这是一个热得烫手的概念。它不仅仅存在于数学的运筹学中，也正在经济学中占据越来越重要的地位（近几年诺贝尔经济学奖就频频授予博弈论研究者），但如果你认为博弈论的应用领域仅限于此的话，那你就大错了。实际上，博弈论甚至在我们的工作和生活中无处不在！在工作中，你在和上司博弈，也在和下属博弈，你也同样会跟其他相关部门人员博弈；而要开展业务，你更是在和你的客户以及竞争对手博弈。在生活中，博弈仍然无处不在。博弈论代表着一种全新的分析方法和全新的思想。

　　诺贝尔经济学奖获得者包罗·萨缪尔逊如是说：

　　要想在现代社会做个有价值的人,你就必须对博弈论有个大致的了解。

　　也可以这样说,要想赢得生意,不可不学博弈论;要想赢得生活,同样不可不学博弈论。

企业博弈

　　博弈论是分析寡头垄断企业市场行为的有力工具。博弈论研究机智而又理性的经济活动主体，在其行为相互影响时的决策以及这种决策的均衡问题。

编辑本段主要范式

重复博弈

　　囚徒困境，砸了传统经济学的场子。因为个人的自利行为，并不一定导致集体利益的最大化，“看不见的手”拉不住，人类向堕落之城下滑的趋势，难道这真是一个悲哀？索性并非如此，撇去博弈论的理性假设不说。博弈论者很快发现囚徒困境只在单次博弈情形下明显，一旦博弈的开始陷入重复，合作将到来。因为，未来的收益将左右目前的决策。

以牙还牙

　　重复的博弈理论上导致了合作的产生，但是谁也不能保证合作的继续，因为之前已经说过，合作的代价是建立在损害个人利益基础之上的。如果个人放弃未来收益或当前背叛收益大于未来收益，背叛的风险仍然存在。那么在重复博弈中怎样的策略才是最优。若干睿智而复杂在经过计算机中PK之后，极其原始的“以牙换牙”策略脱颖而出，固然这个策略简单至极，其威力却无穷，以至于人们在短暂的欣喜之后，发现这把太阿指之剑倒持的可怕，一旦重复链条中出现一次（也许不经意的）背叛，那据此原则行事的博弈将永无止境的背叛下去，个人利益极度膨胀的同时，集体利益无限衰微。幸好，这个世界不是模型，也不是如此简单。很多时候，我们不必以牙还牙，第三方的规范：道德与法律就是我们的假牙，他们更加有利、有理、有节。

人质困境

　　一场憋屈的博弈。抢打出头鸟，人质联合固然可以制服歹徒，但是谁愿出头。这一点给了无数处于劫持者地位的一方以机会，类似于秦的远交近攻、各个击破的策略，将最终全盘赢下。人质可有反制的策略，当然有，不过艰难至极。人质可以选择沉默，这样他有一定时间苟延残喘；或者联合劫持者对付人质，结局还是取决于劫持者，万一他过河拆桥怎么办；同时反抗，集体将获得左右策略，但是这需要壮士断腕的勇气，部分人可能因此受伤。这里是实力与勇气的较量，而且实力暂居上风。

酒吧博弈

　　如果人人理性，那么每一天到达酒吧的人数将是差不多正好的，但是人非圣贤，往往是有限理性的。第一次到酒吧的人多，那么大多人人认为酒吧人太多，太挤。第二次决定的时候，参考前次而不去酒吧。少数去的人发现酒吧的人第二天很少，感觉很爽，第三次将继续回来，并重新带回许多人……循环就此开始。酒吧博弈一方面显示，现实的博弈参与者，是极其有限理性的，其理性只前延后伸一小段。历史数据只对计算机有用，对人，则不一定。

　　另一个方面，酒吧博弈指出，胜利者永远只是少数。尽管酒吧存在调谐的可能，譬如发短信时时提醒，但成本恐怕太高。而在其他场合，少数派可能更加会设置种种障碍阻止后进者的上升。也就是说，我们的世界仍然是操弄在少数派的手中。不过，总算这个世界不是模型，少数派的道路到底还是有迹可循的。老练的将军仍旧会在八卦迷阵中找到唯一的生门。若你想要，必须做一个更加老练的将军。

枪手博弈

　　王者的悲哀。三人对枪自决，甲乙丙枪法优劣递减。最后无奈而神奇的结局，将不取决于同时开枪还是先后开枪，最优良的枪手，倒下的概率将最高；而最蹩脚的枪手，存活的希望却最大。因为没有人会把威胁最小的枪手列为一号清楚目标。在这里，后发制人的弱势者将胜出。以弱胜强，绝不是神话。

　　难道王者的命运就真如此不堪，呵，道别忘了每个理论模型都是有其前提的，击破之中任何一个，王者仍将归来。这就是先发优势。假设这是一场类似CS的竞技，优秀的枪手击倒二号枪手，立刻获得奖励：盾牌。那么三号枪手将陷入绝境。不过，不管怎样，这个博弈模型，到底给了弱势者一份希望。机会永远存在。

猎鹿博弈

　　两个猎人合作猎鹿获得的收益将远大于分别猎兔的收益，战略联盟将开始。这或许是件好事，不过有取决于最后猎获的鹿——这一公共资源的分配，如果分配得当，整体的效率将增加。如果一方主导，另一方受损，那么帕累托改善无法进行，合作可能终将破裂。

　　另外一个问题，更加大局的问题。合作的示范性将使得更多的猎人加入，猎获的鹿将大大增加，人类的利益短期内将呈几何级数增长。但是最后，确是生态失衡，鹿群灭群。短暂的繁华之后，猎人将再一次回归于原始猎兔生活。尽管为了避免这一悲剧，人类还有最后的希望：制度经济学的法宝——科斯定理以产权归属来解决外部经济问题。但由于谈判成本以及可行性，人类社会的公共悲剧仍将不断上演。

智猪博弈

　　混沌之前最后的博弈。小猪和大猪住在猪圈的一边（食槽在这里），开启食物的开关在另一头，谁去踩，谁丧失先机。结果怎样？是小猪选择“搭便车”，大猪勤跑。因为小猪无论跑还是停，大猪的最优策略都是策略都是去踩机关。不过在实际生活中。这里依旧存在两种策略。

　　小猪的“搭便车”。大猪有的时候，自觉或不自觉地自封“侠之大者，为国为民”，并因此承受一些不能承受之重。《博弈论的诡计》指出美国战后的行为极似大猪，战后的美国竭力宣传自己的普世价值观，并深入到海外事务，甚至不惜重金协助小国防务。这样小国不自觉地对大国进行了“剥削”。

　　大猪在击破模型的一个假设之后，仍然有一个后发制人的机会。因为大猪和小猪的耐饿能力不一样，大猪完全有能力撑得更久，小猪如果不想饿死，那只有一条豪赌的路子：龟兔赛跑式的豪赌，但愿大猪打了个盹儿，他回来的时候，还能吃上一两口，要不然真是赔了夫人又折兵了。据此，再也不难解释为什么很多人切齿的腾讯，毫无顾忌地跟风，做QQ旋风，做拍拍，做滔滔。因为不甘心的小猪早早把新技术研发的前期搞定了，大猪们只需要悄悄跟随，适当的时候踢开挡路的，就可以了。

　　大猪在这里的后发制人和枪手博弈的后发并不一致，枪手后发是建立在他人恶斗的基础上，大猪后发完全是以自身实力为基础。而且大猪完全不必采取任何激进措施，只要跟随就好。因为小猪获胜的条件不是接近，还是距离。

警察与小偷

　　令人沮丧的博弈结局。警察和小偷各只有一个机会去巡查或者偷盗A地或B地。A地的价值大于B地，那么警察应该为了保护价值大而一直保护A地吗。博弈论认为当然不是，警察的合理策略应当是有倾向于A以一定概率的随机巡查。这个概率就是：p=A地价值/AB地总价值。这种情况下才能使小偷最大得手几率降至最低。但是很不幸的是，此时的小偷谋求的是，最小得手几率的最大化。也就是说，警察的最优策略将把小偷的最差策略改良！这个便是冯·诺伊曼提出的“最小最大定律”。

　　我们必须再一次感谢这个不完美的世界，因为现实之中，类似的现象，对于一方仍然可以设法找到对手致命的规律性行动（当然必须考虑到对方是不是一个更加老练的猎手，故意放出的诱饵）。而保持自己的行动的无序性，则有可能成为欺骗策略的武器，这倒似张三丰所言道的：无招胜有招。

斗鸡博弈

　　两只斗鸡在决斗的时候，无论选择进或退都是一个难题，因为纳什均衡已经给出了一胜一败的最优策略。在很多较量下，死拼将是得不偿失的，因为很可能给第三者机会。因此，两个已经在战场的强势力很可能自觉的遵循纳什均衡，当一方攻击时，另一方暂退。虽然可能某方暂时受损，但较之于两败俱伤是好得多的。不过，要维持这一状况，必须保证下一次先期受损的一方发动攻势的时候，另一方同样的后退。于是这样的攻击性行为开始变得“仪式化”，没有人真正流血。这只不过是两个巨头玩弄的游戏，目的是警告后来者，想进来，那么也得陪我们一起玩，可是你玩的起么？这正是百事的广告，即使暗含挑衅也最多只到“敢为中国红”这样的地步的原因。

协和谬误

　　欧洲政府在大量投资协和飞机后，终于不能自拔。即使前景黯淡，也撑着面子投下去，非要走投无路才放弃。而这时投入的成本已经全打水漂了。如果，发现不能继续的时候，就果敢放手，损失会小得多。可是他们会、能这么做么？壮士断腕，是何等的壮烈，却也是何等的艰难！

　　沉没成本很可能会延续人们无畏的坚持。已经沉没的本该放弃，可惜大部分有赌徒式的心理，相信阿基米德的杠杆终将启动。可惜他们在爬到足够撬动杠杆的支点之前，已经窒息了。

　　协和谬误，倒是给了人们半途而废的理由，会不会有人担心它的滥觞会左右一些本该坚持的目标？的确有这个可能，但是应该相信人们足够理智，完全可以比较沉没成本、机会成本与未来收益的关系。看清了的，必定会坦然地走出协和谬误。

蜈蚣博弈

　　一场颠前倒后的博弈。蜈蚣博弈的机理是以最终的结果倒退至开始。这是一个睿智的策略，因果相报，把握好因缘，自有好结果。它的另一个好处，就是使得未来的计划明晰化，是你不再徘徊。只可惜，很多时候，碌碌无为的我们并没有看透迷局的眼睛。我们黑色的眼睛只习惯于黑夜。

　　蜈蚣博弈也有一个致命的悖论，仍旧是个人利益和集体利益的冲突，因为最后一次的背叛收益始终优于合作。可悲的是，这一次背叛将由于人性的理智，穿越时光隧道，回到原始的地点：人们将从开始就拒绝合作。还是感谢我们这个不完美的世界吧，事实上人们很少这样做。当然合作到最后的也很少，这意味着，倒推法只在中间阶段突然发生了作用，只不过谁也不能预测，中间一步在哪里。在那里，我们只有冀望信任、道德、良知等等。

分蛋糕博弈

　　两个小孩怎么分蛋糕？经典的故事，经典的解答：一个分，一个选。现实多如此，权利的合理分配将有效促进公平与效率。经营权与所有权的分置的确使得经济更加活力。不过分蛋糕的进阶模型却强调了讨价还价的策略，分蛋糕不是一次性的，而是多回合的，而且出现成本：蛋糕在融化。

　　时间称本的加入，将使得分配变得复杂化。双方如果不能及时达成交易，不仅集体的收益将减量，而且个体的收益也将减少。在此情况下，利用时间称本以及威胁、承诺将对其中一方极其有利。顾客可能迫于情势，必须尽快结束谈判，这时卖方却不慌不忙，故意拖延，顾客一方将不得不在价格上作出妥协。

　　顾客一方当然也有策略，它的策略就是货比三家，要求承诺或威胁。这个前提是买方市场的存在。顾客还应当保护自己讨价还价的能力，这就是顾客有权投诉商家。

鹰鸽博弈

　　这个博弈很多人等同于斗鸡博弈。不过，斗鸡是两个兼具侵略性的个体，鹰鸽却是两个不同群体的博弈，一个和平，一个侵略。在只有鸽子一个苞谷场里，突然加入的鹰将大大获益，并吸引同伴加入。但结果不是鹰将鸽逐出苞谷场，而是一定比例共存，因为鹰群增加一只鹰的边际收益趋零时（鹰群发生内斗），均衡将到来。

　　由此产生了ESS进化上的稳定策略，也就是说一旦均衡形成，偏离的运动会受到自然选择的打击。也就是鹰群饱满后，再试图加入的鹰将会被鹰群排挤。

　　进化上的稳定均衡最大的好处莫过于保持稳定。但问题在于形成强势的路径依赖，也就是胜出的不一定是最好的。因为最好的会被当作出头鸟干掉，这是个体的失败，集团的胜利以及集体的止步不前。

脏脸博弈

　　恍然大悟的博弈。三个人在屋子里，不许说话。美女进来说：你们当中至少一个人脸是脏的。三人环看，没有反应。美女又说：你们知道吗？三人再看，顿悟，脸都红了。为什么？因为美女后一句废话点破天机，三个人都知道脏脸的存在，而且推测知道对方也知道了脏脸的存在（因为另两人脸没红，说明他们看到脏脸了），而且知道对方知道自己已经想到上一步……循环开始，知识开始共同化，真相大白：三个人都是脏脸，所有人都脸红了。

　　这就是共同知识的作用，它的作用显得有点可怕的强大。几乎是一招无影腿，杀人不见血。在台面上的博弈之前，私下的算计已经置对手于死地。不过，很可能对方也预料到这一点，早也想到这一点，同时杀来。终于，形成双死局面。

　　当然，现实虽然存在类似现象，不过共同知识更大的作用在于减少交易成本。因为某些规则人尽皆知，双方只要各自依之行事就可以了。