《策略思维》

西域过客01 2017-01-15

展开全文

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

电话铃声响了，你接起来。

但是，“这该死的运营商！”网络断开了，电话连接中断，你想也没想就直接重拨过去。

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

“对不起，您拨打的电话正在通话中，请稍后再拨！sorry，the number you have dialed is busy……”

你忍不住骂出一声“shit！”。

第一次你接起电话，这是一个回合制事件；第二次你拨号的时候，这时候“打电话”这件事情，变成了你们两人的即时制事件。

在回合制事件之中，对方或者你先选择打电话，然后另一方接起来。但是在即时制的情况下，两人都面临两种选择——拨过去或者是等待对方拨过来。

这种时候总是会出现那种诡异的“神同步”：当你想打过去的时候，对方也想着要打过来；当你想着等对方打过来的时候，对方也在等待……

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

在即时制的事件之中，我们不得不在毫不知晓对方决定的情况下采取行动，等到彼此发现对方做了什么，再想做什么改变已经太迟了。

这种即时博弈，最为出名的就是“囚徒困境”，所有的即时博弈模型，近乎都是从这一原型之下推导而出。

一、囚徒困境

我们先简单介绍一个标准的囚徒困境模型。

警察抓住两个囚犯，现在要单独审问两个囚犯。并且因为某些法则，如果两个囚犯拒绝认罪，那么警方只能把两人各关两年。

如果一人坦白，另一方死不认罪的话，那么坦白的人将获得嘉许，当场释放。而嘴硬到底的那一人，则会被判刑五年。

如果两人都坦白的话，两人都将判刑三年。

我们将两个囚犯分别简化成A跟B，画出博弈论在分析即时博弈常用的博弈矩阵。如下：

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

其中，每个格子里面左下角是A的结果，右上角是B的结果。

二、优势策略

通过上面那张表单，我们可以看到，对A而言，认罪有两个结果：-3和0。而同时，不认罪的两个结果分别对应的是-5跟-1。

其中-3优于-5，0优于-1。

在这种情况下，我们将结果总是比较好的那一列所对应的策略，称之为优势策略。

我们简单理解一下这个优势策略的含义：不管对方怎么选择，优势策略的结果都要好过于其他策略。在上例之中，对A而言，B认罪的话，自己认罪得到-3，自己不认罪得到的是-5，认罪好过于抵赖；B如果不认罪，自己认罪得到的是0，不认罪得到的是-1，还是认罪得到的结果更好。

而另外的处于明显劣势地位的策略，称之为劣势策略。

我们划出一根线，消去那些所谓的劣势策略，得到这么一张图：

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

此时我们看到即时博弈里面有三个框之中都出现了删除的实线，最后只留下唯一一个框：两人同时认罪的框。

也就是说，这两个囚徒在追求自己最佳策略的时候，往往会得到两人双双入狱判刑的结局，这就是博弈论里面最为基础的囚徒困境。

三、纳什均衡

回到最开始我们提出的打电话的例子，我们假设电话打通双方收益都是1，打电话打不通两方的收益都是0。

画出博弈矩阵图：

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

有意思，你仔细观察，发现无论是对A还是对B，都没有一个优势策略：（0,1）的组合，跟（1,0）的组合比起来，显然是毫无优势。

这种情况下，我们没有办法消去所谓的“劣势策略”，整个矩阵还是四个情况摆在我们的眼前。

但是从两个人的整体上来看，两个(1,1)相对起(0,0)就是“双方的优势策略组合”，这两个结果下谁改变都对自己没好处。比如说A选择拨打，B选择等待，A此时改变自己的选择，从1到0，没好处，B从等待变成拨打，也会导致从1到0，也没好处。

这两种双方的优势策略组合可以称之为是纳什均衡：（拨打，等待）和（等待，拨打），就是这一博弈里面的纳什均衡。

好了，基本的概念性玩意儿到此为止。。（不能说看过一期概览连博弈论里面的一些基础定义都不清楚啊，很不想写这种乏味的概念陈述）

四、现实限制下的囚徒困境：惩罚

在前文之中的囚徒困境里面，那只是一个极度简化的模型，现实里面的情况比起模型要复杂许多。

起码我们看过那么多的香港电影、TVB剧，基本上没见过这么老实合作的“犯罪嫌疑人”，他们往往拒不认罪，为什么？

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

因为“惩罚”的存在。

前面我们提出优势策略的时候，0（无罪释放）相对于-1（关一年）是优势策略，但是这只是理想情况下，考虑到现实——万一放出来会被打，那无罪释放还是一个优势策略？

A此时的思考方式就成了，放出去一定会被认为是招了，那么自己的其他同伙一定会惩罚自己，那么此时，招供就不是一个优势策略。

牢狱的惩罚和出去之后同伴的打击报复，都是惩罚。如果同伴之间的惩罚来的更为严重的时候，不招供才是这种情况下的优势策略。

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

这也就出现了我们在电影里面经常碰上的情况，罪犯们往往宁愿蹲监狱都不大愿意招供，犯罪团伙的惩罚机制，有力的制止了其成员在被警察抓住之后选择“招供”的倾向性。

五、无限重复的囚徒困境

如果无限重复，用囚徒的例子已经不合适了。（牢底坐穿吗？）

还记得《自私的基因》概览么？放荡和羞怯的雌性个体，忠贞与薄情的雄性个体。

不过这里不用那个例子，为了简化，我们用一个银行家的例子。为了简化篇幅，直接上图：

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

如同上面的囚徒困境，合作是会被每个人删除掉的劣势策略。

但是如果这个游戏不是一轮位置，而是无限重复的时候，会是怎么样的局面？这个“重复博弈”更为复杂，但这个复杂性里孕育着希望。

这个时候，A跟B并不是敌人，虽然他们还是追求每个人的最大收益，但是对方不可能永远是傻瓜——选择合作，而自己选择背叛。

谁都清楚，无限的背叛下去，双方都讨不到好。

那么这就引入了一个新的词汇——信任。

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

我们会从彼此过去的行为中，判断对方是否值得信任，确定自己在这一轮里面打出什么样的策略，同时我们在事实上也监管着对方的行为。

我们可以信任、背叛这样循环，可以每十次信任打出一次背叛，可以……

哪种综合策略可以获得最好的收益？

六、针锋相对策略

阿克塞尔罗德（一个政治科学家）为此举办了一个实验：每个人提交自己的策略，把这些策略输入计算机，然后计算机让它们自动演化，在若干次循环之后计算每个策略的得分。

最后得分最高的是这么一个策略：针锋相对策略，又叫以牙还牙策略。（来自于心理学家和博弈学家阿纳托尔）

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

这个策略在第一回合会采取合作行动，之后每一步都会重复对手上一局的策略。

这一场比赛可以让我们明白一个事情：在重复的囚徒困境里面，善意和宽容是得到一个好结果的必须要素。

不过在这里，事后的研究却也认为，针锋相对策略并非是一个非常完美的策略，之所以在计算机的模拟之下能够获得最后的胜利，跟计算机的“从不犯错”有很大的关系。

这个策略有个致命的疏忽：误会。

设想一下，在现实里面使用针锋相对策略的时候，误会对方行为一次？（那么两个针锋相对者会无穷无尽的重复选择背叛下去）

针锋相对策略缺少的是一个宣布“到此为止”的方法。

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

具体在现实之中，作者也提出了一个比较复杂的策略，这个策略从合作开始，总共四条：

1、第一印象——第一轮就背叛的对方绝对不可接受，直接进入针锋相对策略；

2、短期——任何三轮当中出现两次背叛不可接受，转向针锋相对策略；

3、中期——过去二十轮之中出现两次背叛不可接受，转向针锋相对策略；

4、长期——过去一百轮当中出现五次背叛也是不可接受的，转向以牙还牙策略。

末、小结

总体来说今天这一篇文章还是比较多的掺杂了理论和概念，不过非常抱歉，这也是不得已而为之。

无论是囚徒困境、纳什均衡，还是无限重复的囚徒困境，这些是我们用知识去解释现实里面不得不涉及到的一些博弈论基础。

本周，将给大家带来明理系列第四期——现实世界里面的博弈缩影。

《策略思维》——即时博弈里面的囚徒困境与无限重复下的优势策略

不管是在《自私的基因》里面出现的进化抉择倾向，还是当下热门的“消费升级”，甚至还有“房价问题”，这些都可以用前面提到的那几个博弈论的基础概念进行解释和预测。

读书不是为了读死书，而是为了用来构建我们的知识体系和预测机制。

明天，将给大家带来这一期概览系列的最后一篇——博弈之下的自由市场失灵。

在《国富论》之后，人们对自由市场经济里面那个“看不见的手”充满了盲目的信心，人们认为每个理性人在追求个人经济最大化的时候，同时也会让整个社会变的更好。

尽管一次次经济危机的出现让人们知道，这只看不见的手并非上帝他老人家的，但是我们依旧对其充满信心。

但是博弈之下人们的取舍，最终却总是会带来一些“并不是对所有人更好”的结局。

想要知道具体是怎么一些情况，还有为什么？那就期待明天的推送吧！

你的阅读时间就是最好的赞美。

倘若你意犹未尽，还请搜索微信公众号名字：“你的文具盒”——

关注我们，概览群书，长见识；修身明理，知是非。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：西域过客01 > 《人文知识》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

西域过客01

关注对话

TA的最新馆藏

[转] 终于比较明白了－－自动对焦模式和区域模式
[转] 它和山药一起吃，男人晚上精力旺盛，“肾之果”不是白叫的
马靖昊：这本书，财务总监朋友们都要读一读！
麦达公开课：创始人如何跟投资人打交道？
图解区块链
谈一谈几年来我对房车使用过程中的总结和体会

喜欢该文的人也喜欢更多

热门阅读换一换