博弈论知识点总结完整版

鹰击天空同 2023-04-21 发布于山西

展开全文

博弈论资料

(一)：基本知识

1.1定义:博弈论，又称对策论，是使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论，是研究竞争的逻辑和规律的数学分支。即，博弈论是研究决策主体在给定信息结构下如何决策以最大化自己的效用，以及不同决策主体之间的均衡。

1.2基本要素：参与人、各参与人的策略集、各参与人的收益函数，是博弈最重要的基本要素。

1.3博弈的分类：博弈论根据其所采用的假设不同而分为合作博弈理论和非合作博弈理论。两者的区别在于参与人在博弈过程中是否能够达成一个具有约束力的协议（bindingagreement）。倘若不能，则称非合作博弈（Non1968）d、不完全信息动态博弈，精炼贝叶斯纳什均衡，泽XX（1975）Kreps,Wilson（1982）Fudenberg,Tirole（1991）

1.4课程主要内容：完全信息静态博弈完全信息动态博弈不完全信息静态博弈机制设计合作博弈

1.5博弈模型的两种表示形式：策略式表述（Strategicform）,扩展式表述（Etensiveform）

1.6占优均衡：a、占优策略：在博弈中如果不管其他参与人选择什么策略，一个参与人的某个策略给他带来的支付值始终高于其他策略，或至少不劣于其他策略，则称该策略为该参与人的严格占优策略或占优策略。对于所有的si）ui（si,si,sii,均成立Ui（si,si）,则说策略si严劣于策*略si。上面式子中，若将“Ui（Si,sNNNi）的期望支付一样大换句话说，称混合策略组合a*是一个纳什均衡，如果没有一个参与人通过偏离策略a*i实现支付的增加均衡，则该纳什均衡是帕XX占优纳什均

3.6一个定理对于Ni形成的局势的收益值,等于纳什均衡混合策略组合（i,T）的收益值。即ui（sk,i）成立，k=1,,L3.7方法：a、求解混合策略均衡可以用期望收益等值法b、22双矩阵博弈的图解法：反应函数的三个交点即是纳什均衡

(四)：多重纳什均衡解及其分析

4.1帕XX占优均衡XX托占优均衡的含义是：在多个纳什均衡中，若存在一个纳什均衡，其支付结果针对每个参与人而言都严格优于其它纳什衡。

4.2风险占优均衡（riskproofequilibrium）定义：如果一个博弈的某个策略组合满足a、没有任何单个参与人的“串通”会改变博弈的结果，即单独改变策略无利可图（该策略组合是纳什均衡）。b、给定选择偏离的参与人有再次偏离的自由时，没有任何两个参与人通过“串通”改变博弈的结果。的串通也不会改变博弈的结果。满足上述要求的均衡策略组合称为“防共谋均衡”在有多个参与人的博弈中，若部分参与人通过某种形式的默契或串通形成小团体，可能得到比不串通个大的支付。这就是多人博弈的共谋问题。防共谋均衡是指这样的一个纳什均衡，在该均衡局势下，少数参与人集合不能通过均衡策略的偏离，实现更好的局部利益。防共谋均衡是两个以上参与人参加的博弈中，参与人在帕雷托占优均衡中进行合作思想的扩展。

(五)：动态博弈

5.1特点一类博弈行为通常需要参与人多步决策才能完成，具有明显的阶段性。博弈的结局、各参与人的收益由多阶段决策结果确定。各参与人的决策有一定的顺序。由于动态博弈各参与人进行决策具有明显的阶段性、行动次序性，通常用扩展

5.2博弈的扩展式表示参与人集合：i=1,，N。用N表示虚拟参与人“自然”；自然的含义是某些外生的客观概率分布事件参与人的行动顺序（theorderofmoves）:描述各参与人在什么时候行动；参与人的行动空间（actionset）：在每次行动时，参与人可选择的行动集合；参与人的信息集（informationset）：每次行动时参与人知道什么；参与人的收益函数：在行动结束之后，每个参与人得到些什么。自然选择的概率分布（假定自然状态是共同知识）。对于有限博弈，博弈树是常用的表述方式。

5.3博弈树a若动态博弈是有限博弈，则可用博c、依此类推，直到所有参与人都参加式（etensiveform）表述法描述这些信息。弈树表示该博弈。这里有限的含义是：各阶段各参与人的行动数目有限；博弈的阶段数有限。b博弈树的基本结构为结点（nodes）。包括决策结及终点结。决策结是参与人采取行动的时点；终点结是博弈行动路径的终点。枝（branches）。从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。信息集。是决策结集合的一个子集。将博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结称为一个信息集。注：每个决策结都是同一个参与人的决策结。该参与人知道博弈进入该集合的某个决策结，但不知道自己究竟出于哪一个决策结（若该信息集有两个或两个以上元素）。

5.4对于有限动态博弈，若参与人对彼此在各决策结点的行动集合，彼此的效用函数，历史的行动有着完全的了解，则称这样的博弈为完全信息动态博弈。如果博弈树的所有信息集都是单元素集，称该博弈为完美信息博弈（gameofperfectinformation）。上述两个定义的差别在于对自然行动信息的描述。

5.5动态博弈的策略式表述a相机选择（contingentplay）动态博弈中参与人的策略是各自预先设定的，在博弈的各阶段，针对各种情况做出相应决策。即“等待”博弈到达自己的信息集（包含一个或多个决策结）后再决定如何行动。在策略式表述博弈中，参与人似乎是博弈开始之前就制定出了一个完全的相机选择，即“如果发生，我将选择”。b从扩展式表述构造战略式表述若把B的信息集从左到右排列，上述四个纯策略可以简单记为开发，开发开发，不开发不开发，开发不开发，不开发。上面四个纯策略含义：当A选择开发时，B发B不开发（1,0）选择大括号中前面的策略；当A选择不开发时，B选择大括号中后面的策略。B的纯策略为：开发，开发开发，不开发不开发，开发不开发，不开发A的纯策略为：Sa=（开发，不开发）于是可以写成策略式表述形式，为开发，开发开发，不开发不开发，开发不开发，不开发31,01,0不开发0,10,00,10,0在扩展式表述博弈中，所有n个参与人的一个纯战略组合S=（S1,Sn）决定了博弈树上的一个路径。比如（开发，不开发，开发）决定了博弈的路径为A开

5.6完全信息动态博弈纳什均衡存在性定理如果有限博弈是完美信息博弈，他还有一个纯战略纳XX（Zermelo,1913）。

5.7逆向归纳法：a逆向归纳法求解策略：从动态博弈的最后一个阶段出发，对该参与人采用经济理性原则进行分析，逐步到推回前一个阶段相应参与人的行动选择，一直到第一阶段的分析方法。b逆向归纳法是求解完美信息动态博弈的经典方法。逆推归纳法是完美信息动态博弈分析中使用最普遍的方法。c与策略式分析比较：如果A选择U,那么B的信息集不能达到，我们说B的信息集不在均衡路径上（oibriumpath）。此种情况下，B的选择对A没有什么影响。因此，纳XX对一个参与人在非均衡信息集上的选择没有限制。但是，一个参与人在非均衡信息集上的战略可以影响其他参与人在均衡信息集上的选择。d逆向归纳法实质上是重复剔除劣战略法在扩展式博弈中的应用。逆向归纳法适不用于无限博弈和不完美信息博弈。逆向归纳法剔除了“非理性”的均衡策略

5.8子博弈完美均衡（子博弈精炼纳XX）子博弈概念：一个扩展式博弈的子博弈G由一个决策结和所有该决策结的后续结T组成，它满足下列条件：是一个单结信息集,即h=;对于所有的T中的，如果与同属于一个信息集，则也在T中。需要说明的是，G本身是自己的一个子博弈。子博弈完美纳XX（子博弈精炼纳XX）扩展式博弈的一个战略组合S*=（S1*,si*,sn*）是一个子博弈完美纳XX，如果它是原博弈的纳XX。它在每一个子博弈上都是纳XX纳XX与子博弈精炼纳XX的关系前面分析说明，一个特定的纳XX决定了原博弈树上唯一的一条路径，这条路径称为“均衡路径”（equilibriumpath）。相对该纳XX，其他路径称为非均衡路径（oibriumpath）。在每一个子博弈上给出纳XX意味着，构成子博弈纳XX的战略不仅在均衡路径的决策结上是最优的，同时在非均衡路径的决策结上也是最优的。对于有限完美信息博弈，前面介绍的逆推归纳法得出的纳XX即是子博弈精炼纳XX。

(六)多阶段静态博弈

6.1该类模型中至少在某个阶段参与人同时选择其决策。这类模型实质上就是完美信息动态博弈，因此仍然可以采用逆推归纳法进行分析。因为存在同时选择，因此每个阶段不再是单人优化问题，而是一个静态博弈。

6.2前向归纳法：前面已经说明，完美信息动态博弈的经典求解方法为逆序归纳法。还有一种分析方式，就是前向归纳法（forwardinduction）。前向归纳法由科XX和莫XX（1986）提出。这里不进行严格的数学描述，仅通过一个例题进行说明。

6.3重复博弈重复博弈（repeatedgame）的定义指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈（stagegame）”。如两个多次犯罪的“囚徒问题”。由于动态博弈是相机行动，反映到重复博弈中，就是可以使自己在某个阶段的博弈选择依赖于其他参与人过去的行动历史。影响重复博弈均衡结果的主要因素是博弈重复次数和信息的完备性（completeness）。重复次数对参与人可能会有的影响是：参与人为了获得长远利益而牺牲眼前利益的策略成为可能。关于完备性，简单地说，但一个参与人的支付函数不为其他参与人所知时，该参与人可能有积极性建立一个“好”的声誉（reputation）以换取长远利益。在社会行为中，经常可以看到本质不好的人在相当长的时期内干好事的原因。定理：令G是阶段博弈，G（T）是G重复T次的重复

(八)合作博弈博弈（T8）。那么，如果G有唯一的纳什均衡，重复博弈G（T）的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次（即每个阶段博弈出现的都是一次性博弈的均衡结果）。上述定理说明，只要博弈的重复次数是有限的，重复本身并不改变囚徒困境的均衡结果。上述定理中“唯一性”是一个重要条件。如果纳什均衡不是唯一的，上述结论就不一定成立。当博弈有多个纳什均衡时，参与人可以使用不同的纳什均衡惩罚前面阶段的不合作行为或奖励第一阶段的合作行为。不完全信息静态博弈不完全信息静态贝叶斯博弈贝叶斯纳什均衡海XX转换拍卖理论可传递效用（transferableutility）合作博弈的特征函数合作的分配可行分配核心的定义Shapley值