《博弈论教程（第三版）》7第五章同时博弈与序贯博弈

来自：src862tektokae > 馆藏分类

配色：

字号：大中小

2023-05-24 | 阅：转： | 分享

第五章同时博弈与序贯博弈5-1 正规型表示与展开型表示5-2 同时决策与序贯决策的混合博弈5-3 树型博弈的子博弈5-4 子博弈精炼纳什均
衡5-5 完美博弈的库恩定理5-6 连续支付情形的序贯博弈5-1 正规型表示与展开型表示“进入者”只有一个决策节点，他有两个纯策略
可以选择：进入和不进入。“垄断者”有四个可能的纯策略：{容忍，容忍}、 {对抗，对抗}、{对抗，容忍}、{容忍，对抗}。1.树型
表示转化为矩阵表示：把首先行动的局中人放在行局中人的位置，后行动的局中人放在列局中人的位置。垄断者有不止一个纯策略可以导致相同的博
弈结果。步骤：首先确定好可供每个局中人选择的纯策略的总数目，从而把表格的大小确定下来，然后在每个策略组合所对应的格子中
，按照约定的规格填入相应的支付向量。2.矩阵表示转化为树型表示问题：树型如何能够表达出局中人同时进行博弈的情况？信息集处理方法：
用一个扁椭圆形的虚线的圈，把所论局中人的若干决策节点罩起来，成为他的一个信息集，并约定如下的理解：所论局中人只知
道博弈是否进行到了他的这个信息集，但是在他知道博弈已经进行到他的这个信息集的情况下。他不知道博弈究竟进行到这个信息集中的哪个决策节
点。信息集是决策结集合的一个子集，满足：该子集中的每个决策结都属于同一个人此参与人只知道博弈进入了该子集的某个决策结，但是不知道究
竟是哪一个结。引入信息集的目的是为了描述参与人对自己要决策之前的博弈历史的了解程度。举例：房地产开发
如果参与人B在轮到自己决策时不知道自然选择是什么，因此不能确切的知道自己处于哪个决策结上。注意一个信息集罩住的必须首先是同一个局中
人的决策节点。一个信息集罩住的必须是同一个局中人在同一个时点的决策节点。在同一个信息集上，大自然、老天爷或者虚拟局中人必须给位于该
信息集内的每个决策节点规定相同的行动选择集合。（数量，内容均相同）给予不被扁椭圆虚线罩住的每个决策节点以信息集的地位，是单点集的信
息集。每一个决策位置都是一个信息集。同集同注：就是从同一个信息集的各个决策节点出发的策略选择,不仅数目相同,而且名称相同当博弈走到
一个单点集的信息集时，面临决策的局中人对于博弈迄今的历史是清楚的，他清楚博弈具体走到了他的这个决策节点而不是别的决策节点。当博弈走
到一个非单点集的信息集时，面临决策的局中人对于博弈迄今的历史是不清楚的，他不清楚博弃具体走到了他的这个信息集里面的哪个决策节点。完
美和不完美历史，也是一种信息。历史清楚的博弈，叫做完美信息的博弈，历史不清楚的博弈，叫做不完美信息的博弈。非单点集的信息集的作用，
在于说明所论局中人在决策时面对不完美信息的局面，即他不能根据自己现有的信息对位于信息集内的决策节点进行区分，他不知道自己现在究竟位
于这个信息集的哪个决策节点上。完美信息博弈的定义定义：如果一个序贯博弈的每个信息集都是一个单点集，那么么该序贯博
弈就是完美信息博弈。否则，它就是不完美信息博弈。例子女方不清楚男方“先前做出”的策略选择。女方必须要么在两个决策节点上都选择足球
，要么在两个决策节点上都选择芭蕾。女方的选择也可以放在博弈树的初始决策节点上。信息集与三人罢工博弈某公司总共雇佣了
三名员工，年底公司老板宣布明年不涨工资，消息引起了三名员工的不满。因此，三名员工考虑第二天是否罢工。情况0：完美信息情况1：2不知
道1情况2：3不知道2情况3：3不知道1情况4：3不知道1，也不知道2情况5：互相都不知写出各种情况下所有人策略集。纯策略纳什均衡
关于纯策略纳什均衡的举例房地产开发商的例子开发不开发强硬跟进悖行示弱-3,-30,00,0-3,-31,01,00,10,1AB序
贯决策博弈的纳什均衡序贯决策博弈的混合策略纳什均衡行为策略（Behavior Strategies）参与人在每一个信息集上随机的选
择行动一个行为策略规定了对应每一个信息集的行动集合上的概率分布，且不同信息集上的概率分布是独立的序贯决策博弈的纳什均衡序贯决策博弈
的纳什均衡举例：房地产开发B的一个行为策略：如果A选择开发，那么我以40％的概率选择开发，60％的概率选择不开发；如果A选择不开发
，那么，我以70％的概率选择开发，以30％的概率选择不开发。A不开不开不开BB(30%)(70%)(60%)(40%)序贯决策博弈
的纳什均衡展开型博弈的行为策略与策略型博弈的混合策略有什么区别？混合策略是针对所有纯战略而言的；行为策略则与信息集密切联系，规定了
每一个信息集上的行动的概率分布。行为策略也是一种相机行动规则，只不过在这种行动规则指导下参与人的行动选择带有随机性。序贯决策博弈的
纳什均衡例如：市场进入博弈对于B混合策略：强硬跟进悖行示弱（ 25％ 25％
25％ 25％）行为策略：若A选择开发，B以60％的概率选择不开发，40％选择开发；若A选择不开发，B
以30％的概率选择不开发，70％概率选择开发。序贯决策博弈的纳什均衡从行为策略构造出混合策略参与人B的四个纯策略：{L,L}, {
L,R}{R,L}, {R,R}对于确定的行为战略b={(1/2,1/2), (1/2,1/2)}则参与人B的混合策略t=(t1,
t2,t3,t4) 满足t1+t2=1/2; t3+t4=1/2;t1+t3=1/2; t2+t4=1/2此方程组有多个解，即一个
行为战略可以有多个混合战略，反之不成立ADURLRLBB5-2 同时决策与序贯决策的混合博弈混合博弈：包含同时决策行动和序
贯决策行动的博弈。例子假定有两家计算机公司（方正、联想），彼此就新产品的研发展开博弈竞争。博弈持续的时间为一年。在这一年里，这两家
公司为能在市场上推出新产品而需要各自私下确定对研发的投入。假设两家公司致力推出的新产品类型相同，并且双方都知道对方要这样做，但他们
都没有向公众公布他们的研发预算。了解对手研发投入决策的唯一方法，是通过在产业年度交易展上观察其产品的性能来推断最终产品的情况。在交
易展上观察到对手的新产品后。双方必须分别对各自的新产品定价。假定公司的研发投入只有低预算和高预算两种选择。低预算的结果是新产品只是
旧产品的部分改良，而高预算的结果则是推出一个完全不同于旧产品而且质量高很多的全新产品。低预算策略用“小”或者“小投人”表示，高预算
策略用“大”或者“大投入”表示。假定在看到对手的新产品后的唯一决策问题就是对自己的新产品进行定价，定价只有“高”和“低”两种选择。
两阶段同时博弈的序贯结构研发预算和定价博弈的矩阵型表述研发预算和定价博弈的展开表述每家公司各有32个纯策略。结果只有16个。5-3
树型博弈的子博弈子树支和棱一个支可以包含许多条棱。支必须包含从它的每个决策节点往后直到末端节点的所有棱。子博弈定义
：在一个n人展开型博弈T中，满足如下3个条的一个博弈S称为博弈T的一个子博弈：S的博弈树是T的博弈树的一支；博弈S不能分
割博弈T的信息集。具体来说，只要博弈T的某个信息集的任何一个决策节点是博弈S的一个决策节点，那么T的这个信息集的每一个决策节点都必
须是博弈S决策节点；博弈S的末端节点处的支付向量，与博弈T在这些末端节点的支付向量的有关部分重合。母博弈：博弈 T,叫作子博弈
S的母博弈子博弈的根前断开标示法注意任何博弈树必须从一个初始决策节点（根）开始，那么，子博弈的根必须组成母博弈的单点信息集。子博弈
的信息集和不包含在它这个支内的母博弈的信息集不相交。一共有几个子博弈？参与人是1和2,A、B、C、D、E、F、G 等
是决策节点。在形式上,博弈按照 “参与人1决策—参与人2决策—参与人1决策—参与人2决策”的顺序进行。请判断如下博弈有几个子博弈5
-4 子博弈精炼纳什均衡策略组合的粗线表示法和纳什均衡的虚线排除确定法可知，8个策略组合，有3个是纳什均衡。
哪个均衡是最有可能发生的并且具有最好稳定性的结果？子博弈精炼纳什均衡定义(泽尔滕)：在一个博弈的所有作为纳什
均衡的策略组合当中，那些局限在每个子博弈上都仍然是那个子博弈的纳什均衡的策略组合，叫做子博弈精炼纳什均衡。子博弈精练纳什均衡本
身也是纳什均衡，但却是比纳什均衡更强的均衡概念。利用博弈树考察一个纳什均衡的时，只要局限于某一个子博弈上它不再是纳什均衡，所考察的
纳什均衡就不是子博弈精炼纳什均衡。均衡路径：一个特定的纳什均衡规定了博弈树上唯一的一条路径，这条路径就是均衡路径，
其他路径是非均衡路径。子博弈精炼纳什均衡不仅在均衡路径上最优，在非均衡路径上也是最优的。(足球，{足球，足球})
局限在根前断开的那支子树所标示的子博弈上，指向(-1，-1)的策略选择有单独偏离的激励，用弯曲箭头表示箭尾的策略成分有向箭头的方向
偏离的激励（偏离方向的箭头标示法）。如果一个策略组合的某个策略成分有偏离的激励，可以说这个策略组合缺乏局部稳定性。子博弈精炼纳什均
衡，应该是经得起每个子博弈均衡检验的纳什均衡。包含不可信威胁的纳什均衡，不是子博弈精炼的纳什均衡。无论从全局看还是
从每个局部看，都符合稳定性的要求，符合最优性的要求，是博弈的子博弈精炼的纳什均衡。威胁和可信性假定现存的一个企业I垄断了某个市场，
每年的利润是4个亿。现在，企业E考虑是否打进这个市场。如果企业E决定进入，而企业I容忍它进入，以后每年企业E将获得利润2个亿，企业
I的利润将下降到1个亿。如果企业E决定进入，但是企业I和他对抗，这里说的是一直对抗，那么以后每年企业E和企业I都损失1个亿。策略组
合？纳什均衡？子博弈精炼纳什均衡？两个纳什均衡之中,只有一个是子博弈精炼纳什均衡,它就是 (进入,容忍)对局课堂练习用策略组合的粗
线表示法和纳什均衡的虚线排除法画出并讨论全部可能的对局或者策略组合，以虚线标示不是纳什均衡的那些对局。用虚线圈住的子博弈和相应的标
示具有偏离激励策略的箭头，排除那些不是子博弈精炼均衡的纳什均衡，得到子博弈精炼的纳什均衡。5-5 完美博弈的库恩定理是否每个树型表
示的动态博弈都有纳什均衡呢? 库恩定理（Zermelo; Kuhn) ：完美信息的有限序贯博弈都有纳什均衡(纯策略纳
什均衡)。（可用逆向归纳法证明）逆向归纳法应用于有限完美信息博弈思想：从最后一个决策结，即最末梢的子博弈开始，寻找该据测结上参与人
的最优选择；然后，退到上一层的决策结，寻找其参与者的最优选择；如此类推，直到初始结，即最高层次的子博弈。是重复剔除劣战略在展开型博
弈上的推广。逆向归纳法——以两阶段为例第一阶段参与人1行动，第二阶段参与人2行动，参与人2行动时可以观测到参与人1的行动用逆向归纳
法，从参与人2开始：参与人1在第一阶段的选择为参与人2面临的问题为则参与人2的反应函数逆向归纳法——以两阶段为例返回到第一步，参与
人1的选择参与人1在选择行动时已预测到参与人2在第二阶段的反应函数参与人1面临的问题求解此优化问题，得到最优解子博弈精炼纳什均衡为
均衡结果为5-6 连续支付情形的序贯博弈一、斯坦克尔伯格模型（ Stackelberg ）与古诺竞争模型一样，斯坦克尔伯格寡头竞争
模型也是同质产品的产量竞争模型。与古诺模型所不同，斯坦克尔伯格模型是序贯决策模型，博弈的其中一方具有较强的实力，称之为企业1；而另
一方的实力相对较弱，称之为企业2。博弈首先由实力比较强的企业1选择自己的产量，实力比较弱的企业2在观察到企业1所作出的产量决策后，
再确定自己的产量水平。是一个两阶段的序贯决策博弈。用（）表示企业1的产量选择；用（
）表示企业2在观测到后所选择的产量；用表示当市场总产量为时的市场
出清价格，其中企业的利润是每个企业的利润可写为：斯坦克尔伯格寡头竞争模型描述的问题：垄断企业产量选择参与人：企业1和
企业2行动顺序：企业1先行动，称为领头企业；企业2观测到企业1的选择，然后选择自己的产量，称为尾随企业。企业2的产量是企业1产量的
函数价格是总产量的函数两个企业有相同的不变单位成本c斯坦克尔伯格寡头竞争模型分析（逆向归纳法求解）斯坦克尔伯格寡头竞争模型逆向归纳
法求解从企业2开始分析，假定企业1已经选择了产量q1，则企业2选择时要以最大化自己的利润为目标，即面临如下问题：由一阶条件可得
斯坦克尔伯格寡头竞争模型逆向归纳法求解然后倒推到企业1，企业1是理性的，预测到企业2将根据一阶条件选择产量，则企业1面临的问题为
由一阶条件可得于是斯坦克尔伯格寡头竞争模型逆向归纳法求解注意：子博弈精炼纳什均衡为(q1,s2(q1))，而为均衡结果
，即在子博弈精炼纳什均衡策略指导下得得到的均衡结果。请对比古诺模型中的均衡结果先动优势斯坦克尔伯格寡头竞争模型承诺如果企业1先行生
产出产品，则毫无疑问，企业2会按照企业1的实际产量来确定自己的产量，即企业1的威胁是完全可信的；但是如果企业1仅仅是向企业2宣布自
己将生产多少产量，则这个威胁是不可信的，模型就变成了静态博弈下的古诺产量模型。企业1可以采取很多方法来使企业2相信自己的威胁，例如
通过各种手段加大自己的投资。斯坦克尔伯格寡头竞争模型与古诺模型差别：1、企业1和企业2的总产量大于古诺竞争模型,价格却低于古诺竞争
模型,这对消费者来说是有利的。2、在斯塔克尔伯格寡头竞争博弈中,企业1的利润大于在古诺竞争博弈中的利润,而企业2的利润则小于在古诺
竞争博弈中的利润。图表具体画出了古诺竞争模型与斯塔克尔伯格模型比较的结果二、里昂惕夫劳资博弈模型工会的立场：不
单单只追求较高的工资这个目标,同时还希望有较多的工人得到雇用, 假设工会与厂商之间的博弈过程如下:工会首先决定工资率,
然后厂商根据工会提出的工资率水平决定雇用工人的数量。为简单起见,假设工资率和工人雇用数是连续可分的,因此双方都有无限多种选择。
工会和厂商的博弈支付分别用u(W ,L)和π(W ,L)表示第一步：分析后动的厂商的选择,求出厂商对工会选
择的工资率W 的反应函数L(W)。假设工会提出的工资率为W ,则厂商的目标是找出能使自己实现最大利润的工人雇用数L,即：
通常来讲,我们可以假设厂商的收益和利润函数满足连续性和边际收益递减的性质,因此通过计算厂商的利润函数π对工人雇用数L 的一阶导数并令其等于0,就可以求出在给定工会选择工资率W 时厂商的最优工人雇用数,即第二步：回到博弈的第一阶段,即工会的选择。由于工会了解厂商的决策方法,因此它完全清楚对应于自己选择的每一工资率,厂商将会选择的工人雇用数一定是由一阶条件决定的L(W)。因此,工会需要解决的决策问题是选择 W ,从而使自己的效用达到最大,即：只要能够给出工会效用函数的具体形式,我们就可以通过求解这个最优化问题,找出符合工会最大利益的工资率W。练习：课本的习题第22题劳资博弈问题。回顾5-1 正规型表示与展开型表示树型表示转化为矩阵表示矩阵表示转化为树型表示：信息集5-2 同时决策与序贯决策的混合博弈5-3 树型博弈的子博弈5-4 子博弈精炼纳什均衡5-5 完美博弈的库恩定理5-6 连续支付情形的序贯博弈斯坦克尔伯格寡头竞争模型和里昂惕夫劳资博弈模型

献花(0)

(本文系src862tekto...首藏)

类似文章 更多

发表评论：