博弈论之总结

zdfzxmy 2014-10-26

展开全文

1，总起：

在研究博弈论之前呢，我们首先发现博弈论有一个大前提条件，那就是人都是理性的，而且这种理性是一种共识。在这种大前提之下，我们可以发现无论是静态博弈还是动态博弈。无论是完全信息博弈还是非完全信息博弈。所有的博弈者做出的决策都是使自己希望收益最大化的。无论这个决策带来的收益是确定的，还是决策带来的收益是一个概率分布。理性博弈者总会做出使自己收益最大化的决策（在考虑到对手决策之后）。这里我们可能会说，在某一个博弈阶段博弈者的收益并不是最大化的。但是在重复博弈中，博弈者肯定会使自己的总收益达到最大化。

我想这一点也是老师上课一直在强调的，虽然博弈种类有许多种，但是只要我们知道决策选择是使博弈者期望收益最大化的就会迎刃而解。

下面我们来对每种博弈来做一下具体分析：

根据对信息的掌握程度，我们可以把博弈分成四大类：

完全信息的静态和动态；不完全信息的静态和动态。

2，完全信息静态博弈

首先我们先从非合作均衡中最简单的完全信息静态均衡开始分析，NASH均衡作为最简单的静态博弈，一个非常经典的例子就是囚徒困境。虽然非常简单但是我们从中看到战略式博弈当中包含的三个基本要素：

1，参与人 2，参与人战略级 3，战略所带来的收益（效用函数）

从囚徒困境中，我们也可以发现，如果双方合作的话会出现帕累托改进的现象。于是我们知道双方的策略，只是在给定对方的策略下使自己的支付最大化的策略，而并不一定是最有效率的策略。就像是污染博弈，美苏冷战是一样的道理。

2，接下来呢，我们再来看一下混合战略，混合战略解释了一个参与人对其他参与人所采取的行动的不确定性，它描述了参与人在给定信息下以某种概率分布随机地选择不同的行动或战略。

我们可以发现，在混合战略中，各种情况下参与人采取的战略决策并不是确定的，而是以一个概率的形式出现的，其实我们发现纯战略其实可以当做是混合战略的一种特例（即0-1分布情况下的情形），所以其实混合战略是一种更为广泛的博弈形式。

那么其实混合策略nash均衡的求解形式如果我们可以得出，其实也就可以把它推广开来。

老师上课的时候讲了两种求解的方法，一种是支付最大化法，一种是支付等值法。其实我们发现无论是哪种方法都没有离开我们最一开始的假定条件，那就是参与人的理性，和理性是一种共识。正是因为有了这个大前提，我们才能比较不同选择为参与人带来的收益，从而使其支付最大化。

和在纯战略的nash均衡一样，混合战略的nash均衡是每个参与人的混合策略是给定对方的混合策略下的最优选择。

虽然上面这两种博弈的形式非常简单，但是其实，这两种博弈寻找最优解的方法，使我们研究下面更复杂博弈的基础。而且其实我们通过以上两种博弈发现了一个特点，那就是博弈其实和单纯的选择最大的不同就是你的收益取决于你的博弈者的选择，所以，博弈是需要考虑他人决策的一种“复杂选择”。其实，这里其他参与者的选择确实对我们的影响非常之大。

3，完全信息动态博弈

在完全信息的静态博弈之后呢，我们再来看一下完全信息动态博弈，其实动态博弈只是在博弈之前加入了参与人之间的选择顺序的先后，即由博弈双方同时博弈变成了一个参与人作出决策，另一个参与人根据第一个博弈人做出的决策做出自己的决策。

在动态博弈中，参与人为了使得其他参与人的选择对自己有利，往往采取一些行动来影响其他参与人对于自己行为的预期。这些行为称为战略行动。我们可以发现其由两个方面来组成的：

1.首先行动优势

首先行动优势是指，在博弈中首先作出战略选择并采取相应行动的参与人可以获得较多的利益。

2.确实可信的威胁

确实可信的威胁是指，博弈的参与人通过某种行动改变自己的支付函数，从而使得自己的威胁显得可信。参与人为改变博弈结果而采取的措施称为承诺。

我们还可以发现一个问题，那就是，如果我们用静态博弈中的nash均衡的方法来讨论动态博弈中的均衡问题，通常求出的均衡解是不唯一的。

我们可以发现在动态博弈中的矩阵形式不同于在静态中的，一般我们在求解的过程中采用的逆推法来进行结果的推导。

因为有了这种逆推法，所以我们首先是把博弈分为不同的信息集，继而就出现了子博弈的概念子博弈：是原博弈的一部分，它始于原博弈中一个单结信息集中的决策结x，并由决策结x及其后续结共同组成。一般用表示博弈树中始于决策结xi的一个子博弈。

具体的分析过程是这样的：

（1）找出博弈的所有子博弈；

（2）按照博弈进程的“反方向”逐一求解各个子博弈，即最先求解最底层的子博弈，再求解上一层的子博弈，......，直至原博弈。

由此我们可以根据以上的分析过程，从最底层开始，看看哪一些均衡是真正的均衡，而哪一些是在特定情况下才会产生的均衡。

在动态博弈中呢，一个非常重要的问题就是分析对手给出的威胁是否是可以置信的，以及怎么样把不可置信的威胁变成可以置信的威胁。

就如老师上课讲的例子一样，在开发和不开发的博弈中，如果一家公司（A）说无论另一家公司（B）开发或者不开发我都会选择开发。这是A公司在这个博弈中的一个威胁。但是如果要看其是否是一个可置信的威胁的话，那我们需要对每种情况下的收益做出支付的分析。用逆推法我们可以得出以下结论:

可置信：如果我们发现在给出威胁的情况下，如果A公司采用威胁的行动这种情况可以带来最大的收益是最大的（对A公司），则可以认为这种威胁时可置信的.

由此其实我们发现，动态博弈虽然用到了和静态博弈中完全不同的决策树的分析方法，而且，我们求解均衡的时候用到的是逆推法。但是我们发现，动态博弈的一个最重要的核心内容也是一样的，那就是博弈参与者所作出的决策将会选择那些使得自己受益最大化的决策，也就是理性人的假定必须成立的情况下，我们分析的方法还是收益的比较来做出最终的结论。

但是在生活中呢，我们发现了另一个非常有趣的例子，那就是污蔑名人以求高额勒索的例子（也就是我们书中所说的要挟诉讼），在这个例子中呢，我们发现了动态博弈中的另外两个概念：（我们分别来作出分析）

1，大的并不一定能带来优势

这一点上面我们也可以根据两者的支付来得出结果（但是在诉讼的例子中这一点变成了损失而并不是原来意义上的正的收益），即规模大并不一定能够带来好处，有时还会成为攻击的对象。

2，承诺行动

在这一点上面，我们沿用了前面一样的分析方法，我们发现如果采用决策树逆推法的分析形势。要挟者假设会选择使自己最大的收益的行动方法，则起诉的这个威胁是不可置信的。但是如果要挟着在诉讼之前就支付了诉讼的费用，我们发现，再进行收益的分析，就有可能使得不可置信的威胁变成了可以置信的威胁了。结合第一条，我们可以发现，如果要挟者提前支付了诉讼的费用，则如果原告的社会地位等（规模）越大，则就越有可能受到这种承诺行动的影响，使得不可置信的威胁变成了可置信的威胁。

通过这两点，我们发现了可置信威胁与不可置信威胁有时候并非是绝对的。我们可以采用承诺行动的方法来使得不可置信的威胁变成可以置信的威胁。从这里我们可以把承诺行动理解成一种沉没成本，其实还是我们上面所说的那种方法。把承诺行动成本考虑进来之后，其实就是改变了每一种行动情况下的支付情况，使得原来不可置信的威胁的行动的收益超过了另一种行动时的收益。也就使得不可置信的威胁变成了可置信的威胁了。

4，不完全信息静态博弈

分析了上面的两种情况，我们的信息均为完全信息，下面我们来分析一下不完全信息的情况，看一下基本情况是什么样子的。

首先是不完全信息静态博弈：

我们首先来看一下什么是完全信息：每个参与人对其他参与人的支付函数有准确的了解；否则，为不完全信息。

完美信息：在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动，否则为不完美信息。

有定义我们可以发现不完全信息与完全信息有以下联系和不同：

1，参与人并不知道其他参与人的支付（收益）情况是什么样子的

2，因为不知道其他参与者的收益情况，也就不能用完全信息的方法来进行分析

3，但是我们的基本框架还是没有改变，那就是无论是完全信息博弈还是非完全信息博弈，都是假定参与人是理性的，并且都会选择使自己期望收益最大的决策选择。

根据前两点的不同呢，我们可以发现，其实是因为在博弈开始之前，我们对参与人的信息并不了解，才造成了不确定因素，这也是我们为什么不能用完全信息不能解决这个问题的方法。

但是如果将这种不确定因素去掉，我们可以将其转换成完全信息的分析方式了：

因此我们就需要引入一个新的概念那就是类型的概念。

在引入类型之前呢，我们发现因为一个博弈者并不知道他在与谁博弈，也就无法确定其他博弈者的收益情况，因此也就不能用完全信息的方法来得出均衡解。但是当引入了类型之后，我们发现，其实在把可能遇到的参与者在不同的类型下分类之后，（就像老师上课所讲的企业是高盈利的还是低盈利的，斗鸡博弈中的参与者是强硬的还是软弱的。）这样我们就可以进一步分析了，分别考虑在不同参与者类型情况下的问题。我们就将原本的不完全信息变成了完全信息博弈来求解了。

但是，我们发现在引入了新的类型之后，我们如何在博弈中表现这种类型呢？这就涉及到了一种非常经典的方法，海萨尼转换：

我们先来看一下为什么要引入海萨尼转换：

因为在假定参与人拥有私人信息的情况下，其他参与人对特定参与人的支付函数类型是不清楚的。（也就是我们在上面引入的类型变量）如果一些局中人不知道另一些局中人的支付函数，或支付函数不是共同知识，局中人就不知道他在与谁博弈，博弈的规则是没有定义的。

下面我们来看一下海萨尼转换是怎么具体实施的：

首先引入一个虚拟的局中人——“自然”，自然首先进行选择它决定每个局中人的特征。每个局中人知道自己的特征，但不知道别的局中人特征。这种方法将不完全信息静态博弈变成一个两阶段动态博弈，第一个阶段是自然N的行动选择，第二阶段是除N外的局中人的静态博弈。我们可以看到这个转换把“不完全信息”转变成为完全但不完美信息，从而可以用分析完全信息博弈的方法进行分析。

在接下来的分析当中，我们发现其实我们的工作就非常简单了，那就是只需要求出每种类型所出现的概率，然后再根据每种类型下的收益情况进行概率与收益的加权平均。就可以求出在信息不完全情况之下的（就是说一个参与人对另一个参与人的不确定因素）参与人在各种策略选择上的收益情况，进而得出他的受益最大的策略。

我们发现还有一个问题没有解决，那就是概率的问题：那么我们如何解决概率的问题呢？

我们可以根据贝叶斯规则来进行求解：

以斗鸡博弈为例子：

博弈论之总结zz 1，用p(t1,…,tn)表示定义在参与人类型组合上的一个联合分布概率函数。

2 用表示参与人i在知道自己类型为ti的情况下，关于其他参与人类型的推断(即条件概率)，则

假设pss=0.2，psw=0.3，pws=0.25，pww=0.25。

其中， pss：决斗者1和决斗者2同时强硬的概率；

psw：决斗者1强硬、决斗者2软弱的概率；

pws：决斗者1软弱、决斗者2强硬的概率；

pww：决斗者1软弱、决斗者2软弱的概率；

虽然决斗者1不知道决斗者2 的类型，但由于决斗者1知道自己的类型，因此他可以根据贝叶斯公式推知决斗者2的类型分布。

由此我们知道，虽然不能得到决斗者2到底是什么类型，但是根据贝叶斯公式，我们可以得到其类型的概率分布，这样子的情况之下，我们就将问题变成了我们前面提到的完全信息混合战略nash均衡的求解问题上面了。

这就是不完全信息静态博弈的分析方法，其中一个重要的应用方面的例子就是机制设计理论，从其定义上看：

设计者希望得到的结果和参与人所掌握的信息(可以是参与人的类型、也可以是参与人的努力程度等一切参与人知道、而设计者不知道并且与结果相关的信息)相关，但是设计者又无法直接获得参与人所掌握的信息，从而无法直接确定结果，因此他必须诱导参与人发出信号，从而确定结果。

其实说的通俗一些，激励设计理论就是说，设计一种方法让设计者知道参与人的真实想法，而这里的真实想法其实就是我们上面所说到的类型的一个延伸。

我们可以发现，在激励设计理论中，有三个阶段：

阶段1：机制设计者(委托人)设计一种“机制”，或者“契约”，或者“激励方案”；

阶段2：代理人选择接受或拒绝该机制，拒绝的代理人得到某个外生的“保留效用”；

阶段3：接受机制的代理人选择自己的行动(或者战略)，实现一个博弈结果。

而每一阶段呢都要对应有自己的约束条件，

1，阶段1：机制设计者(委托人)设计一种“机制”，或者“契约”，或者“激励方案”；

约束：虽然老师上课没有讲，但是我觉得，只有当设计者认为设计的机制给他带来的收益大于设计所带了的成本的时候设计者才会选择设计这个方案

2，阶段2：代理人选择接受或拒绝该机制，拒绝的代理人得到某个外生的“保留效用”；

约束：由于代理人在第二阶段总可以选择不接受该机制从而获得一个保留效用，因此，代理人接受这个机制获得的效用必须不小于拒绝这个机制时获得的效用。（参与约束或个人理性约束）

3，阶段3：接受机制的代理人选择自己的行动(或者战略)，实现一个博弈结果。

约束：从机制设计者的角度而言，设计机制的目的是能够使代理人的博弈行为促进其最大化利益的实现，也就是迫使代理人说真话，因此，必须要对代理人的行为选择进行约束。这意味着，对于代理人而言，代理人真实报告自己的类型时获得的效用必须不小于谎报自己类型时获得的效用。（激励相容约束）

机制设计理论的一个典型应用就是拍卖的例子。老师上课进行了数学推导，其实，最根本的还是满足上面两个条件，

满足了参与约束

满足了激励相容约束

最后我们发现，虽然机制设计理论可以认为是一种延伸，但是只要看到上面这两个约束我们就会发现，其根本问题还是选择所带来的收益的一个权衡问题。无论是惨不参加，还是说不说真话都是这样。

6，不完全信息动态博弈：

在分析完不完全信息静态博弈之后，我们最后来看一下不完全信息动态博弈:

这种博弈可以说是四种博弈中最为复杂的了，相比于完全信息博弈，由于其信息的不完全性，因此和不完全信息静态博弈一样他需要引入类型的概念。

而另一方面，相比较于静态博弈，他又具有动态博弈所特有的行动顺序。

因此，我们发现，具有以上两个特点的不完全信息动态博弈，可以用到我们前三种的分析方法。

首先根据不完全信息的特性，与不完全信息静态博弈一样，在不完全信息条件下，博弈的每一参与人知道其他参与人的有哪几种类型以及各种类型出现的概率，即知道“自然”参与人的不同类型与相应选择之间的关系，但是，参与人并不知道其他的参与人具体属于哪一种类型。

在静态博弈中，我们用到的是贝叶斯法则求出了类型的概率分布，但是在动态中，因为行动有先后顺序，后行动者可以通过观察先行动者的行为，获得有关先行动者的信息，从而证实或修正自己对先行动者的行动。

因此我们可以发现，动态博弈相较于静态，在不完全信息下又增加了一个信息修正的过程。（即后决策者可以根据先前决策者的行动，来修正概率）

具体方法是：

在不完全信息动态博弈一开始，某一参与人根据其他参与人的不同类型及其所属类型的概率分布，建立自己的初步判断。当博弈开始后，该参与人就可以根据他所观察到的其他参与人的实际行动，来修正自己的初步判断。并根据这种不断变化的判断，选择自己的策略。

因此我们可以根据修正前后的变化得到两个概率：

先验概率和后验概率：

先验概率(prior probability):修正之前的判断；

后验概率(posterior probability)：修正之后的判断。

根据贝叶斯法则，根据先验概率，我们可以求出后验概率：假定参与人i有K个类型，同时有H个行动，用qk和sh分别代表一个特定的类型和战略，假定i属于qk的先验概率是p(qk)30,且Sp(qk)=1,参与人i选择sh的条件概率为p(sh?qk),且Sp(sh?qk)=1。假如观测到i选择了sh，则i属于类型qk的后验概率Prob(qk?sh)为：

根据上面的对不完全信息动态博弈的解释，我们可以来看一下它的一个非常广泛的应用，那就是信号传递。

首先我们来看一下信号博弈顺序：

(1)“自然”首先选择1的类型Q?q，参与人1知道自己的类型，但参与人2不知道，只知道1属于q的先验概率p=p(q)；

(2)1在观测到类型q后选择发出信号m?M,M={m1,…,mJ}是信号空间；

(3)2观测到m(而非q)使用贝叶斯法则从先验概率p推断后验概率 $TW$AD_T57J}JDP8NU{I7X2C$ ，然后选择战略s；

(4)支付函数分别为u1(m,s,q), u2(m,s,q)

信号传递博弈的精炼贝叶斯均衡是战略组合(m*(q),s*(m))和后验概率的结合，它满足：

(P1) s*(m)极大化S u2(m,s,q)；

(P2) m*(q)极大化u1(m,s*(m),q)；

(B) 是参与人2使用贝叶斯法则从先验概率p=p(q)、观测到的信号m和参与人1的最优战略m* (q)得到的。

信号传递博弈的所有可能的精练贝叶斯均衡可以划分为3类：

1，分离均衡：不同类型的发送者以1的概率选择不同的信号，或者说，不同类型的人选择的信号互不相同。在分离均衡下，信号准确地揭示出类型。

2，混同均衡：不同类型的发送者选择相同的信号，或者说，不同类型的人选择相同的信号，因此，接收者不修正先验概率。

3，准分离均衡：一些类型的发送者随机地选择信号，另一些类型的发送者选择特定的信号。

根据以上的这些基本的信息呢，我们可以得出一些关于信号传递的基本运作的原理。我们发现，在某些阶段，企业所选取的策略选择可能并不会使得本阶段的收益是最大化的，但是它可以通过这个阶段传递出的，或者不想传递出的信息使得整个过程博弈的收益最大化。因此我们发现在不完全信息动态博弈当中，我们还是没有偏离我们的基本假定，那就是，选择的策略的结果可以使得决策者在整个博弈中的收益高于其他的决策选择。即使某些情况下某些决策在该阶段可能并不是最有收益的，但是加上信号传递效果对整个过程的正的外部性，其实参与者在每个阶段的决策选择也是符合收益最大原则的。

7，总结

根据以上的这些总结我们把四种博弈的问题已经全部考虑进去了。下面我们来用表格更好的来展示一下这些博弈的联系与区别：

信息完全性/决策次序性	无决策次序	有决策次序
完全信息	完全信息静态博弈	完全信息动态博弈
不完全信息	不完全信息静态博弈	不完全信息动态博弈

类型	所需要素	博弈进行的前提假设	解决的方法	具体的例子
完全信息静态博弈	1，参与人 2，参与人战略级 3，战略所带来的收益	1，人的理性假设 2，理性共识假设	矩阵法	1,囚徒困境
不完全信息静态博弈	1，参与人 2，参与人战略级 3，战略所带来的收益 4，类型	1，人的理性假设 2，理性共识假设	海萨尼转换贝叶斯法则	1，古巴导弹危机
完全信息动态博弈	1，参与人 2，参与人战略级 3，战略所带来的收益 4，决策顺序	1，人的理性假设 2，理性共识假设	逆推法（决策树）	1，斗鸡博弈
不完全信息动态博弈	1，参与人 2，参与人战略级 3，战略所带来的收益 4，类型 5，决策顺序 6，先前决策所传递信息	1，人的理性假设 2，理性共识假设	海萨尼转换贝叶斯法则信息修正	1.黔驴技穷 2.信号传递