021 “一报还一报”的数学解释

读书作乐 2018-08-27

展开全文

一、博弈论建立后在生物、社会学上发展很快，数学上反而没有更多应用

1、全世界8600种鸟类，有320种鸟类会帮助其他种类动物，喂食、筑巢、清扫身体等。

2、帮助其他种类动物时无疑增加了自身风险，这样的生存策略为什么会存在呢？

3、进化论对此无力解释，《自私的基因》里用基因最大化来解释利他行为。

二、用“存在的稳定性”解释生存策略

1、星星的存在、山河湖泊的存在，海浪的形成都是因为他们从长期看，处于动态平衡中，即便有扰动，地球上也存在某个机制让他们重新出现。

2、鹰派与鸽派理论可以通过得分的方式计算这类生物共生情况下的数字比例；或者可以解释为每个个体都采取混合策略，具体采用什么策略的比例也可以计算出来。这个比例是动态平衡的，任何一方数量的改变都会有自然形成的压力让他们重新回到平衡。

3、也许现实中的生存策略混合状态也有部分原因是由于这个原因。

三、囚徒困境实验的3种进阶分析

1、阿克塞尔·罗德进行了第一阶段“重复囚徒困境”实验，设计出14种策略，让每种与每种都进行200局对战，之后计算每200局的平均成绩，和总的平均成绩。找出了最优者：第一局和对方合作，此后每局的策略是对手上一局所采用的策略。我们称之为“一报还一报”策略，他的平均分是504.5分，最低225最高600分。完全随机选择合作/背叛的平均分最低只有276.3分。

2、阿克塞尔·罗德希望找到更好的策略，胜过一报还一报，征集了学生和学者一共62种策略后，进行了第二阶段“重复囚徒困境”实验，目的是为了找到比一报还一报更加优秀的策略。但结果没有人可以超越一报还一报。不过第二阶段测试中也发现一报还一报在应对“完全不管对手如何出牌，自顾自出招”时效果不好。在面对“90%一报还一报”策略时容易出血回声效应（双方不断背叛对方），两报还一报原本被看好，实际效果不好。一报还两报的策略过于严苛，频繁出现循环报复。从感情上讲，既宽容又严厉，并且可以及时给对方反馈，不计前嫌。

3、阿克塞尔·罗德进行了第三阶段“重复囚徒困境”实验，这次让62个程序以相同比例进行混战，200局一轮战斗。每轮战斗后清点每种策略的得分。下一轮战斗中按上一轮的得分配个体数量。这样设计就增加了自然选择的压力。最开始消失掉的是总和对手合作的类型，总是背叛对手的个体数量增加，一报还一报个体数量也增加。中间阶段，总是背叛对手的类型开始消失。最终留下的是一报还一报和其小改款。在有自然选择压力的情况下一报还一报是一种稳定策略。总是背后捅人一刀的看似凶悍，终将被淘汰。

4、博班鸟之所以飞进鳄鱼嘴里帮它清除口腔碎屑寄生虫，双方看似在合作，鳄鱼不背叛博班鸟。原因可能有多种多样，但在博弈论中这种一报还一报策略是进化中最稳定的，所以会长久存在下去被我们看到。

5、以交通为例，压实线变道如果算人们交通关系中的一种背叛，按车道线行驶算是一种合作，那么北京现在乱开车的比较多，就是因为背叛后失分太少，总体来说背叛行为得分高让他成为了一种稳定策略。如果交管局可以严格执法，或者只是简单提高处罚分数，而执法严格程度不变，也将起到很好的效果，这样做可以把合作这种行为筛选成稳定策略。而这，正是交通规则制定者的职责。