博弈论思想，科学家模拟上万次“囚徒困境”，找到了最成功的决策

hyqg8 2020-05-03

展开全文

我们都知道1914年爆发了第一次世界大战，但是这场大战，越是临近圣诞节，就越发诡异。原本杀红眼的交战双方：英国和德国。不但停了火，还开始唠嗑，甚至还踢了一场球赛。战场上的这种默契是比比皆是，并不少见。

在韩国电影《高地战》当中，南朝鲜和北朝鲜的军队争夺高地，进攻方总是象征性地攻打高地，然后防守方也象征性地防守，之后高地就易主了，。这时候攻取高地的一方常常可以挖到防守方留给他们的礼物和拜托他们寄送的书信。

这样的“合作”十分默契，在战火纷飞的那些岁月里，已经成为了一种双方士兵的共同认知。

《高地战》剧照，使用汉字其实是历史原因，那时候确实就是汉字

在《自私的基因里》，理查德道金斯成就指出，进化论对于一些现象无力解释，比如说：全世界一共有8000~9000种鸟类，其中有300多种能够帮助其他动物喂食，筑巢，清理身体。要知道它们在帮助其他动物时，也会存在危险，可它们为什么会选择这样做呢？

再然后，我们平时旅游时，在景点常常会被宰，景点的东西贵到爆炸，但是同样的东西在你家小区的杂货铺就十分便宜，这究竟又是什么呢？

其实，上述的四个例子，其实都可以用一种数学模型来解释。今天，我们就来聊一聊：如何做出合理的决策。

囚徒困境

在聊这个问题前，我们先来讲一个博弈论的经典案例。

假说警方抓住了两名罪犯，姑且就分成甲嫌疑犯和乙嫌疑犯。但是警方并没有证据可以指控这两个嫌疑犯。于是，他们就把他们两个人你分别关在两个房间，然后分别对他们进行盘问。

接下来，就有三种情况会发生，对应三种结果：

如果，两个人都保持沉默（也就是合作），那两个人会背叛半年的监禁。

如果，一个人检举对方（也就是背叛），另一个人保持沉默（合作），那检举的人立即释放，被检举的人则要被判10年监禁。

如果，两个人都互相检举（互相“背叛”），那么这两个人都会被判刑5年。

那这个时候，甲和乙是该合作还是该被判呢？

其实，单次的囚徒困境，选择被判是最利于自己的选择。

重复囚徒困境

但是，我们要知道的是，在日常生活中，其实都不是单次的囚徒困境，而是多次的。还是说到上面的例子，一战时的英德士兵，其实理论上应该把对方消灭。但是是个人都想活下来，如果你把对方杀了，对方的战友也不会坐视不管，他们也会对你下狠手。所以，这一来一往，循环往复，也就成了多次的囚徒困境。

那如果是多次的囚徒困境，到底是什么样的决策才最有利于个体的发展呢？

美国科学院院士阿克塞尔·罗德教授，曾做过相关的研究和实验，模拟真实情况下的决策以及结果。

具体来说，是这样的，第一轮，他让他的学生和一些心理学家，科学家设计了14种策略，然后做成计算机程序，让每个策略对应的程序都相互对战200回合，然后取平均成绩。最后选出了最优的策略。

这个策略大概的描述是这样的：

第一局选择与对方合作，然后之后的每一回合都选择对手上一会和的策略。

这种策略被阿克塞尔·罗德称为一报还一报。

但是他觉得，仅凭14种策略就断言“一报还一报”是最优策略有点太随意了。于是，他决定找到更多的策略来试验。他向全世界的科学家，心理学家以及高校的老师征集策略，前前后后找到了几十个策略。然后，进行了第二轮和第三轮的对决。

上万回合厮杀下来，最终“一报还一报”依旧是最终的赢家。在阿克塞尔·罗德写的《合作的进化》当中，有非常详细的实验数据，感兴趣的可以去查阅一下，这里就不罗列。

一报还一报的智慧

在《论语·宪问》中，曾经记载着孔子这样的一句话：

子曰：“何以报德？以直报怨，以德报德。”

翻译过来就是：用什么来报答恩德呢？用正直报答怨恨，用恩德报答恩德。

其实这当中就有“一报还一报”的智慧。“一报还一报”之所以可以战胜这么多的策略，就在于它有四个有点：善良性、报复性、宽容性和清晰性。

首先，它的出发点是选择合作，而不是选择背叛。这就是善良性。在实验中，那种一味选择宽容的策略，常常都会输的非常惨。

但同时，它不是软蛋，只要对方敢背叛，它就会立刻让对方尝到背叛的代价。这就是报复性。

但它也不会一心就知道报复，而是只要对方选了合作，它就会立马宽容对方，选择合作。这就是宽容性。

最后，也是最重要的，他的规则很清晰，不带任何的猫腻。对方很容易把握到它的规律，这其实是一种正值的体现，不耍任何的小聪明。这就是清晰性。那些狐狸型的策略在模拟中也常常是惨败收场，这足以说明，小聪明和耍阴谋并不能长久。

一报还一报是人类的天性

而“一报还一报”也是人类的天性，甚至是生物的天性，开头我们说到的案例。

一战的英德两军的士兵，之所以最后会一起踢球，是因为人性中“一报还一报”特质。起初一方阵营一有炊烟，对面就往有炊烟的地方开炮，一下可以炸死人，因为这时候的人都在排队打饭。但是你会在对方吃饭开炮，对方也可以。这样一来二去，双方都吃不上饭。于是，就很容易形成一个约定，吃饭的时候别开炮。接下来这种默契慢慢扩散开来，就出现了节假日不要开炮等等现象，以至于出现了圣诞节一起踢球的场景。

而高地战的南朝鲜和北朝鲜的军队也是这样，无休止地来回争夺高地，士兵们为了保命，从真打慢慢演化成了假打，打成了默契仗，这样大家都保住了命，也完成了任务。

而景区的商家是之所以宰你，是因为他们认定是不会再来的，这是单次的囚徒困境，不宰白不宰。而你小区的商铺之所以便宜，就是因为你们是多次的囚徒困境，如果他要宰你，你就会理课报复他。

至于，大自然的共生关系也是可以通过“一报还一报”来解释的。

因此，“一报还一报”不仅仅是一个最好的生存策略，而且也是刻录在我们基因里的一种天性。