分享

多轮的最后通牒博弈你能绕的清楚吗?

 读书作乐 2018-08-14

《最后通牒和种族隔离》

相信很多人都有过这样的考试经历,当考试时间即将用完,还有几道选择题无法确定答案时,你会随便的勾选一个答案然后交卷,而且还有不少人在这种情况下倾向于选择C,因为据说在所有的单选题答案中,C选项是正确答案的概率最高。即便勾选C更容易蒙对的这种传统说法没有经过实际的统计验证,但以25%的概率随便选一个选项也比交白卷要更好则是毫无疑问的。这个小小的生活经验实际反映出了人类大脑的一个深刻的工作机制,就是当需要对某种情况做出快速响应时,人们会选择一个直觉性的有某种理性在内的快速解决方案而不是费心费力的去进行完整的推理。在我们此前的节目中已经多次分析过,经济学和社会学常常把人的行为设定为一种理性驱动下的动作,这是不全面的。原因就是在很多的环境中,人们是采用直觉性思考模式来处理问题的,而这往往不是理性的。

最后通牒博弈

博弈论中著名的最后通牒博弈实验我们之前有过简单介绍。(感兴趣的可以回看以前的节目《分钱的人和花钱的猴》)但那是为了说明人类同时具有的利己和利他心理。实际上,这个经典的实验由于具备高度的抽象性和博弈内容,因此对其改进和发展的研究工作一直在进行,赋予了这个实验更多的意涵。


经典的最后通牒博弈是这样的:A、B两个人参加实验共同分掉一笔金钱。A决定分配方案,B决定是否接受该方案。如果接受,则按照此方案分钱;如果拒绝,则双方都一无所获。按照绝对理性假说,A只要分配给B超过0的一个最小货币单位即可达成交易,否则B将一无所获。但是根据大量的在不同地区、不同文明的人群中进行的测试,普遍的实验数据并不支持博弈论分析给出的结论。测试中有极少量的A给自己分很大比例的金钱,因此实验中会有15%的此类方案被B否决,而大多数A角色会顾虑到B的情绪,选择将总额1/3左右的钱分配给B。另外实验中也有很少量的A会选择大方的均分这笔钱。

上述的实验方式叫做一阶段最后通牒博弈实验,也就是说AB双方只有一次机会去分享金钱,一旦方案被否决,游戏便结束了。这个版本的游戏最早来自于三个德国经济学家:古思、施密特伯格和施瓦茨在1982年进行的尝试。当时他们让42个经济学系的学生志愿者参加了两轮游戏,中间相隔一周的时间。在第一轮游戏中,由于所有的志愿者毫无经验,里面有1/3的志愿者选择平分这笔钱,故此A角色平均分给B的金钱占到了总额的37%。但是到了一周后的第二轮实验,经过思考后的玩家意识到了游戏的规则导向是有利于分配者的,故这时A分配给B的金钱比例下降到了32%,基本回落到正常值。

最后通牒博弈的结果发布后,在学术界引起了很大的反响,因为它直接推翻了博弈论预测的行为结果。卡尼曼、克莱齐和泰勒1986年在加拿大的英属哥伦比亚大学,进行了三个相关实验。

在第一个实验中他们想验证一下是不是由于这套游戏的规则没有被玩家充分理解和掌握才会出现这样的矛盾。他们要求参与者回答关于规则和角色任务的一些问题,137个志愿者中淘汰了22个不能正确作答的人。但是经过筛选后的玩家仍然表现出了和德国实验基本一样的行为结果。

在第二个实验中,他们想看看拿掉角色B制约角色A的最重要的否决权以后,玩家们会不会按照博弈论方式来出牌。这个实验中,角色A要么选择自己拿18美元,B拿2美元的方案,要么选择AB各自拿10美元的方案。一切完全由A决定。结果仍然大出所料,竟然有76%的A志愿者选择平均分配金钱。


卡尼曼

如果我们把选择拿18美元的A称为贪婪者,选择10美元的A称为平均者,则在第三个实验中,卡尼曼等人要求一些还未参与过的志愿者在两个选项中进行选择:和某个贪婪者同时获得6美元的奖金,或者和某个平均者同时获得5美元的奖金,结果又一个令人大跌眼镜的结果出现了,74%的人选择宁愿自己拿少的奖金,也不想让贪婪者受益。

两阶段最后通牒博弈

接下来,有人提出会不会是因为过于简化的博弈流程造成了人们的决策和博弈论预测相悖。这就引出了多阶段的最后通牒博弈实验。1985年,为了挽救博弈论的声誉,捍卫其有效性,博弈论专家宾莫尔、谢克德和萨顿精心设计了一个两阶段的最后通牒实验。在这个实验中,相对于以前有两个重大变化,以使得这个实验更近逼近真实决策情况。一个是AB角色之间可以就方案通过网络进行沟通协商,另一个是分配环节从一次变成了两次。如果在第一次A的分配方案被拒绝后,不是终止游戏,而是互换AB双方角色,再进行一次分配。但是此次分配的金钱总额将是最初总额乘上一个小于1的缩水系数。比如缩水系数等于0.5的话,就意味着第二阶段双方能分配的金钱只有第一阶段的一半。在宾莫尔实验中,最初分配总额是100便士,缩水系数是0.25。

我们先来倒推一下这个两阶段博弈的理性结果。假设博弈能够进行到第二阶段,此时B掌握分配权,分配缩水后的25便士。B的最佳决策是分配给A一个最小的货币单位,也就是1个便士。这说明B在第二阶段最多可以获得24便士,则其在第一个阶段得到的分配不能少于24便士,否则B一定拒绝。因此A在第一阶段的最佳决策就是分配给B角色25便士。这个推算出来的最佳分配数值在博弈论上叫做均衡数值。如果参与实验的人足够理性,则大部分志愿者应该选择接近均衡数值的分配方案。

这个两阶段实验一共安排进行了两次。在第一次实验中,由于缺乏经验,大部分志愿者A在第一阶段分配给B的平均数达到了50个便士,远远超过均衡值,只有10%左右的人选择了正确的24-26便士之间的额度,而在这些分配方案中竟然又有15%被B否决而进入第二阶段。由此证明,无论是分配者A还是接受者B都不能正确的估计均衡分配值。


第一次实验结束后,组织者让分配者A和接受者B双方交换角色,然而再进行第二次的两阶段博弈测试。由于B在上一次实验过程中掌握到了自己的合理收益信息,因此当B成为第一阶段的分配者后,他们的表现就和博弈论所预测的结果大体一致,分配平均值恰好在25便士左右。根据这些结果,实验的设计者充满信心的认为,自己两阶段的实验方案证明了不是博弈论无效,而是此前的一阶段实验中,参试人员没有机会去了解博弈结构,故此做出了非理性的选择。

看起来,博弈理论在本次实验后起死回生了,然而事情哪有那么简单,质疑的声音很快就出现了。一个最有力的的怀疑点就是整个实验的缩水系数的取值。根据我们前面给大家演示的倒推过程,很容易通过计算得出,两阶段最后通牒博弈中,如果总分配金额是100元,第二阶段的分配金额缩水比例系数是p,则A角色的决策均衡值,也就是最合适的分配给B的数值就是100p元。再说的简单点,缩水系数就是A应该分配给B的最佳比例。

在宾莫尔实验中,缩水系数被设定为0.25,而在前文讲过,一阶段的金钱分配实验中统计出来人类心理天然的均衡分配比例本来就是0.3左右,两者非常接近。所以很难说,宾莫尔的实验结果是来自于人们内心的博弈分析还是出于人类心理的天性。

为了弄清这一点,古思和蒂茨专门重复了两阶段最后通牒实验,但是把缩水系数故意设定成了比较极端的0.1和0.9,这样A在首阶段应该分给B的金钱比例也应该是0.1和0.9。这是理性的决策结果,不过从感性上来说,前者显然非常不利于A,而后者则过度的有利于A。果然,在这种设定下,实验结果与博弈论给出的均衡比例相比出现了较大差异。在缩水系数为0.1的实验中,A分配给B的比例是0.24-0.33;而在缩水系数0.9的实验中,A分配给B的比例则是0.37-0.49。很明显,人们还是围绕着天然的三分之一的心理感受比例来进行微调,而不是去进行什么博弈分析。


多阶段最后通牒博弈

为了进一步凸显这种效应,研究者干脆把博弈流程继续搞复杂,从两阶段上升到更多的阶段。尼林等人在1987年,从普林斯顿大学的中级微观经济学班的学生群体里选择了一些大学生参加了多阶段最后通牒博弈实验。他们在所有实验中分配的初始总金额都是5美元,并默认1.25美元是第一阶段的决策均衡值,也就是四分之一。请注意,在所有的阶段中,只有第一阶段均衡值不是推理出来的,而是通过实验测量得出的,0.25-0.33之间都算合理。因为这个均衡值从理论上来说应该是最小货币单位占总金额的比例,而不是三分之一到四分之一。

实验中共设定有两阶段、三阶段、四阶段、五阶段四种博弈方式,经过精心反算设计每个阶段的缩水系数,实验设计者让A角色在所有的实验项目中首阶段的均衡比例都是0.25,即A在开始按照25%的比例分配资金给B是最理性的。在这样统一的均衡值设计下,对比不同的多阶段实验的结果,就能体现出博弈过程复杂化对决策过程的影响。

最后的实验数据解读非常有趣:二阶段博弈的结果和上述宾莫尔实验结果基本一致,大部分A都选择了接近25%的分配比例,和博弈论的预测保持一致;三阶段博弈中,大部分A选择了接近50%的比例,也就是接近平分金钱,这说明增加的博弈过程让分配者产生了一种看不清以后的决策惰性,索性用比较保守的方案来快速解决问题,毕博竟平分金钱就和考试题目选C一样是最退让的方式;但是对于五阶段博弈,情况又发生了变化,A分配的平均比例大约在30%左右。这说明当博弈流程不是看不清而是看不到头的时候,人们会选择走一步看一步的方式来处理问题。30%的比例就是对B保持一定的友好度,以期望换取在后面阶段B也对自己友好,同时A也没有过度的让利。


隔离模型

上面的实验有力的证明了人类在思考处理问题时,会受到博弈环境的显著影响,也就是受到来自其他人的影响。而这样的情形不仅仅出现在最后通牒实验中,也大量出现在我们的日常生活中。下面就为大家介绍一个有趣的例子:种族隔离。

狭义上的种族隔离是人类在文明还不够进步的近代早期,出于歧视和排斥的需求,将不同的种族安排在不同的地区居住以便进行管理和压制。今天我们的地球上大部分文明地区都不再有种族隔离现象,但是不同族群之间仍然会出现自发形成的居住隔离,最典型的莫过于富人和穷人形成的富人区和贫民窟。


可能大部分人会把这种现象简单的归结于鄙视链条的存在,也就是某种歧视心理或者相对的某种认同心理。比如说,我是富人,所以我必须要和富人居住在一起,周围有一个穷鬼都不行。但是从我下面介绍的模型观点看来,这种认识却不是正确的。不同族群形成居住隔离的确依赖于一些群体认同和群体排斥的心理因素,但是形成隔离对这种心理强度的要求远没有想象中那么高。

抽象的来说,种族隔离问题就是一种数学上的分类效应问题。它是指个体在一定规则的支配下,自发的形成各种类别的区隔。不仅仅是人们的居住地隔离,还有社会生活中形成的各种社团,动物的种群,移动聊天工具形成的讨论群组,都属于此类问题。对此马里兰大学的经济学家托马斯·谢林给出了一个非常简单的描述模型,叫做谢林隔离模型。

他认为分类效应背后的规则非常简单,就是一句话,每个个体会受到周围个体的影响。故此他提出可以用一个3×3的九宫格来表示这种影响规则,九宫格的中心代表决策个体,周边的8个格子代表邻居,所谓的影响的体现则可以根据不同的应用问题来制定具体计算规则。


其中的×表示中心决策个体,红色代表富邻居,灰色代表穷邻居,白色代表无人居住。

以居住隔离问题为例,每个决策个体就是一个家庭。每个家庭都设定一个心理阈值,这个阈值代表了该家庭愿意留在某地居住时所能接受的周边富人的最低比例。该家庭的决策有两种:搬迁或者停留。而决策的计算非常简单,周边富人比例低于心理阈值,就搬迁;周边富人比例不小于心理阈值,就停留。有人说,这么简单也算是模型吗?当然算,越是简单且有效的模型越是好模型。计算机的测试表明,利用谢林隔离模型可以有效的演示出复杂的群体隔离现象的产生过程。

根据模拟计算的结果,当所有人的心理阈值设定为30%时,经过模拟搬迁过程,最后稳定下来以后人群之间的总相似度是72%;当心理阈值设定为40%时,经过模拟搬迁,最后稳定下来的人群之间的总相似度是80%;当心理阈值设定为52%时,人群的总相似度变为94.8%。

这个过程说明,人们的心理阈值越高,也就是人们对于某种标准的群体认同度越强烈(财富、种族、爱好),最后形成的人群隔离现象就越明显,故而人群之间的相似度就会不断提升。

但是这种正相关关系是有边界的,当把心理阈值设定为80%的时候,你就会发现整个人群的搬迁活动无休无止、永远稳定不下来。这就是说当人们变得特别不宽容时,便没有人能够找到自己想要的环境。当然你可以修筑一条隔离墙,就像以色列做的一样,但那注定不是永远的解决方案。


我们可以比较一下美国纽约的两幅地图,一张绘制了不同族裔之间的居住分布,一张绘制了不同收入阶层之间的居住分布。可以明显的看到,族裔地图形成了明显的居住隔离现象,而穷富地图虽然也有一定的穷富集中区域,但相互掺杂并没有形成显著的居住隔离。依照直觉,我们可能觉得形成居住隔离的族群问题比较严重。但按照谢林隔离模型的解释,事实恰恰相反,现在的人们对于族群的差异相对宽容,而人们仇富厌穷的心理却非常尖锐,难以调和。

所有的人都承认,真实的社会问题非常复杂,并非一个简单的谢林模型就能完全解决。不过还是那句老话:所有的模型都是错的,但不少模型却是有用的。

创业不易,耳娱心憩之余如有您偶或中意的节目期次,请帮我们随手转发。书不尽言!您的鼓励是我们最大的动力。谢谢!


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多