配色: 字号:
《博弈论教程(第三版)》6第四章 序贯决策博弈
2023-05-24 | 阅:  转:  |  分享 
  
第四章 序贯决策博弈4-1 序贯决策博弈与博弈树4-2 策略与行动4-3 序贯博弈的纳什均衡4-4 倒推法4-5 先动优势与后动优势4-6
博弈论给自己出难题扩展式表述回顾:战略式表达参与人集合参与人的战略集合支付函数不必考虑博弈的动态过程,因此,二人有限博弈矩阵表就可
以分析4-1 序贯决策博弈与博弈树考虑行动的先后顺序和博弈历史,适用于动态博弈。在战略式基础上要考虑:行动顺序对每次(每阶段)行
动知道多少,有什么具体行动可供选择扩展式表述要素:参与人集合:i=1,2……参与人的行动顺序参与人的行动空间:每次行动都有什么选择
参与人的信息集:每次行动时,参与人都知道些什么参与人的支付函数:是所有行动的函数外生事件(自然选择)的概率分布博弈的扩展式表述可以
用博弈树来实现博弈树的特点是直观清晰,其优点是可以体现多人博弈过程举例:以房地产开发为例参与人是A、BA先行,然后是自然选择市场大
小,最后B行动自然选择的概率分布为:市场需求大的概率为1/2,需求小的概率1/2。例子:决策有先后的博弈,称为序贯决策博弈(序贯博
弈)。表述为博弈树的博弈,也叫做展开型表示的博弈。博弈树描述了所有局中人可以采取的所有可能的行动以及博弈的所有可能的结果。博弈树由
节点(nodes)和棱(edges)组成,节点又分为决策节点(decision nodes)和末端节点(terminal node
s)。博弈树以棱把节点连接起来。决策节点是局中人作出决策的地方。每个决策节点都与一个在该决策节点上进行决策的局中人相对应。每棵博弈
树都有一个初始决策节点,初始决策节点也叫做博弈树的根(root),是博弈开始的地方。末端节点是博弈结束的地方,一个末端节点就是博弈
的一个(可能的)结果(outcome)。每一个末端节点,都与一个支付向量相对应,这个向量按分量次序排列博弈的所有参与人在这个结果下
的博弈所得。博弈的参与人的数目,就是支付向量的维数。首次行动顺序原则:序贯博弈各结果相应的支付向量中,按照每个参与人头一次决策行动
出现先后的自然次序排列收益。博弈树必须说明在每一个决策节点上相应的局中人能够采取的所有可能的选择。一些博弈树可能包含“不做任何决策
”的决策节点。每一个决策节点都有至少一条棱从它那里出发往后延伸,但是没有最大延伸数量的限制。对于不是根的每个节点,只能有来自别的节
点的唯一的棱指向它这个节点。博弈树并不要求每个局中人必须在至少一个非末端节点上进行决策。即,可能会出现某些局中人并不在任何一个非末
端节点上进行决策的情形。进入障碍博弈一个垄断企业因为他的产品一直可以卖高价赚取每年10亿元的利润。别的企业为了进入这个垄断的行业,
需要4亿元的投资。当别的企业准备进入的时候,原有企业必须决策:或“容忍”新的企业进入,具体表现为他收缩产量以维持高价,这样他的利润
降为5亿元。这时,设对方的利润也是5亿元,减去4亿元进入投资,实得1亿。或垄断企业展开商战“抵抗”,就是加大产量,降低价格,力图把
进入者挤出去,这时原来垄断企业的利润降到2亿元,即使对方也得2亿元,却不抵投资的4亿元,结果亏损2个亿。即使对方不进入,垄断企业也
可以采取降价威胁的策略。这时候其的利润下降为4亿元。n人序贯博弈的博弈树的主要特征 对于表达有n个局中人P1,P2,…
,Pn参与的一个序贯博弈的博弈树:在树的每一个非末端节点上,都只有一个局中人进行决策;在树的每一个末端节点上,都指派了一个n维的“
支付”向量p(v)=(p1(v),p2(v),…,p3(v)),这里v是这个末端节点的相应的策略表达.而1,2,…n是博弈参与人首
次决策的自然顺序。注意几点:首先,末端节点并不为任何一个局中人所单独拥有,末端节点按照一定次序给出所有局中人在这个结果的博弈所得,
约定采用首次行动顺序原则给出这个次序。博弈树并不要求每个局中人必须在至少一个非末端节点上进行决策。在一个多人序贯博弈中,可能会出现
某些局中人并不在任何一个非末端节点上进行决策的情形。这些局中人因为没有行动的机会,实际上并不参与博弈,我们仍然把他们称为博弈的局中
人或者参与人,他们实际上是别人的博弈后果的承受者。博弈树允许从一个非末端节点只伸延出一个棱的情况,在这种情况下,这个非末端节点就是
一个实际上不做决策的决策节点。4-2 策略与行动策略:参与博弈的各个局中人在进行决策时,可以选择的方法、做法或经济活动的水平、量值
等。行动:局中人在博弈的某个时点上的决策变量。同时决策博弈,每个局中人的策略就是他能够采取的行动。序贯决策博弈,策略与行动有区别。
序贯决策博弈行动:每一个决策节点上局中人的决策变量或行动的具体选择。策略:一个完整的行动计划,就构成局中人在博弈中的一个策略。“进
入者”只有一个决策节点,他有两个纯策略可以选择:进入和不进入。“垄断者”有四个可能的纯策略:不管你怎样,我总容忍;不管你怎样,我总
对抗;你进我抗,你不进我忍;你进我忍,你不进我抗。垄断者的这四个纯策略,可以简单描述为四个行动集,每一个行动集都说明垄断者在他拥有
的两个决策节点上相应的行动。{容忍,容忍}、 {抵抗,抵抗}、{抵抗,容忍}、{容忍,抵抗}。男策略:足球;芭蕾女策略:追随策略
:他选择什么,我就选择什么;对抗策略:他选择什么,我就偏不选什么;芭蕾策略:无论他选什么,我都选我喜欢的芭蕾;足球策略:无论他选什
么,我都选他喜欢的足球4-3 序贯博弈的纳什均衡女方策略:八种可能的策略组合粗线表示法箭头排除确定法均衡与结果均衡与结果是两个不同
的概念:均衡是策略的组合;结果是行动的组合。例如:情侣序贯博弈,其中一个纳什均衡是(足球,{足球,芭蕾}),这是一个策略组合,因为
它给每个局中人规定了在各种可能发生的情况下应当采取的应对行动,对于每个局中人来讲,它都是一个完整的行动方案。按照上述这个均衡策略组
合所导致的博弈结果是(足球,足球),即,博弈的最终结局是男女双方都去看足球。 (足球,足球)是行动的组合。同时决策博弈中,由于“策
略”选择等同于“行动”选择,所以那时候说“均衡”与说“结果”没有多少不同。至于符号方面,表示策略组合用圆括号,表示结果也用圆括号,
但表示策略组合的圆括号里面的各项是策略,(理应)用花括号括住,而表示结果的圆括号里面的各项是行动,不该用花括号括住。练习策略组合?
纳什均衡?策略组合策略组合星号简示法 : ( U ,{ U’ , } )2策略组合的节点表示法: ( { U / D }, {
U’ / D’ , U’’ / D’’ })8({ab/ac/ad},{ch/ck,dp/de},{bf/bg,em/en})4
-4 倒推法(逆向推导法)在序贯博弈中,由于均衡与结果是两个不同的概念,所以求解纳什均衡的虚线排除确定法(或箭头排除确定法),并不
适用于求解序贯博弈的结果。一般使用倒推法(逆向推导法)求序贯博弈的结果。一般步骤从序贯博弈的最后一个决策阶段开始分析,每一次确定出
所分析阶段局中人的行动选择和路径。然后再确定前一阶段决策的局中人的行动选择和路径。由于倒推法确定的各个局中人在各阶段的选择,都建立
在后续阶段各个局中人理性选择的基础上,因而很自然就排除了包含不可置信威胁或承诺的可能性,因此它得到的结论比较可靠,并且由此确定下来
的各个局中人的策略组合,具有较好的稳定性。事实上,倒推法是序贯博弈中使用得最普遍的方法,它对于分析完全并且完美信息的序贯博弈非常有
用。4-5 先动优势与后动优势 局中人先行得益大于后行得益的情况,叫做先动优势。“先下手为强” 局中人后行动得
益大于先行动得益的情况,叫做后动优势。“后下手也不一定遭殃”: eg.最优的制度; 两商家确定价格甲有后动优
势甲有先动优势,乙有后动优势4-6 博弈论给自己出难题难题1:100元的分配(公平思想)难题2:抓钱博弈(蜈蚣博弈)难题3:旅行者
困境难题1:100元的分配从一个班级里面挑出 A、B两位同学,然后主持人拿出100元,让 A、B两位同学就如何分配这100元进行一
轮讨价还价:首先由 A 提出一个分配方案,比如 “我拿75,你拿25”,如果 B同意,则按照 A 所建议的方案在他们之间瓜分这10
0元。如果 B拒绝 A 的提议,则两个人都将一文不名。难题2:抓钱博弈(蜈蚣博弈)主持 A、B两人做博弈游戏,决策点上面写谁就轮到
谁决策。一开始,A 决策。如果 A 决策结束游戏,A 得1,B得0;如果 A 不结束游戏,就轮到 B决策,这时如果 B决策结束游戏
,B得2,A 得0;如果 B不结束游戏,则又轮到 A 决策。所以你看,两人轮流决策,奖赏越来越大,谁决策结束游戏,谁就得到全部奖赏
,而对方什么也得不到。难题3:旅行者困境两个旅行者从一个以出产细瓷花瓶著名的地方旅行回来,他们都买了一样价格的花瓶。提取行李的时候,发现花瓶被摔坏了。他们向航空公司索赔。航空公司知道花瓶的价格总在八九十元的价值浮动,但是不知道两位旅客买的时候的确切价格是多少。航空公司请两位旅客在一百元以内自己写下花瓶的价格。如果两人写的一样,航空公司将认为他们讲真话,于是按照他们写的数额赔偿;如果两人写的不一样,航空公司就论定写得低的旅客讲的是真话,并且原则上照这个低的价格赔偿,但是对讲真话的旅客奖励2元钱,对讲假话的旅客罚款2元。
献花(0)
+1
(本文系src862tekto...首藏)