约翰.纳什与纳什平衡理论

启凡 2010-03-26

展开全文

约翰纳什姓名：约翰•纳什性别：男国籍：美国出生年月：1928 专业领域：经济学(博弈论) 毕业院校：普林斯顿英文姓名：JOHN F.NASH荣誉:1994年诺贝尔经济学奖获得者,美国计量经济学委员会委员生平大事:纳什在普林斯顿读博士时刚刚20岁出头，他的一篇关于非合作博弈的博士论文和其他两篇相关文章确立了他博弈论大师的地位。到上世纪50年代末，他已是闻名世界的大牌科学家了。然而，正当他的事业如日中天的时候，天妒英才，他得了严重的精神分裂症。多亏前妻艾莉西亚的爱心呵护和普林斯顿大学诸多朋友和同事无私的帮助才没有使他流落街头，并最终把他推上诺贝尔经济学奖宝座（1994年获奖）。纳什说，他其实只做了两件事情：一是研究过讨价还价的问题；二是关注了经济问题并从数学的角度加以分析。

　　　一位有着传奇人生的数学天才，诺贝尔经济学奖获得者。
1928年6月13日出生于西弗吉尼亚布卢菲尔德。像所有的天才儿童一样，儿时的纳什是一个性格孤僻，成天着迷于做各种实验的孩子。他的父亲是一位电子工程师，总是能解答纳什提出的各种问题。纳什最喜欢的一件礼物《康普顿插图百科全书》也是来自父亲。他的妹妹玛莎回忆起小时候的事情时说：“当我和我的朋友外出的时候，总是要担起带上哥哥的任务。不过我觉得这并不能让我那古怪的哥哥变得容易相处些。”
他的老师并没有留意到他的学生的出众之处，相反，老师们并不喜欢纳什的不合群和反复无常的性格以及对权威的不尊重。在纳什的青年时代，他总是成为人们嘲弄和取笑的对象，因为他对集体活动不感兴趣，拙于社交。他奇怪的举动让他饱尝了众人的白眼。
　　随着年龄的增长，这位“无所不知的人”——别人这样称呼纳什——越来越高大和强壮。他的谈吐尖锐，受到周围人的崇敬。毫无疑问，他认为自己是个比别人都高明的天才，并对他认为不如他的人不屑一顾。
　　纳什在卡内基理工学院（如今的卡内基大学）就学的时候，一位教授将纳什称为“高斯第二”，以此来形容这个学生的数学才能。纳什来到卡内基理工学院是为了成为一个工程师，但最后他却在这所学校成为了一个数学家。
　　他的同学认为他是个社交能力极端不发达的人。孤僻、怪异、有距离感。但是没有人敢于和纳什发生正面冲突。大家不但害怕他的坏脾气，也害怕他的强壮。和他超乎常人的智力类似，纳什有着良好的身体素质。
1947年3月，纳什遭遇了一生中首次重大失败。他参加了当的威廉·洛厄尔·帕特南数学竞赛。这是一个为大学在校学生举办的数学比赛，也被认为是让自己的名字在数学界出现的好机会。但是纳什输掉了这场竞赛，他没能进入前5名。对于一个将来的数学家来说，这是一个彻底的失败。
1948年，纳什从数学系毕业，并得到了去哈佛、普林斯顿、芝加哥和密歇根深造的机会。纳什本人向往哈佛。但是由于在帕特南数学竞赛中的失败（至少纳什一直这么认为），哈佛提供给纳什的奖学金是各所大学中最少的。最后，凭着推荐信中一句“这个学生是个天才”，纳什来到了普林斯顿大学。
　　普林斯顿的环境非常适合纳什。这个1933年成立大学城的小镇中聚集了众多著名的科学大师：罗伯特·奥本海默、爱因斯坦、冯·诺伊曼、诺曼·斯蒂恩罗德……1948年，纳什来到了这个满是哥特式建筑的小镇，来到数学系的红砖大楼中攻读博士学位。当时数学系的主任是俄国移民莱夫谢茨，他在一次事故中失去了双手和前臂。
　　莱夫谢茨鼓励学生进行独立思考。而当时人们对纳什的评价是：“天空都不足以容纳他的独立性”。在这所学校中，学生唯一必须出席的课程是每天下午三点钟的下午茶。在那里，教授和学生们讨论数学，说着有关数学的笑话，谈论各种最新的数学研究成果，并通过这样的方式来评价每个学生的能力。要获得这所学校的学位并不容易：或是成功，或者被淘汰。
　　在这样一个鼓励思考和异想天开被认为是天才的象征的环境中，纳什的精神开始了自由的舞蹈。他对所有的学科都感兴趣，并利用下午茶的时间充分展示自己：谁都无法忽视他的存在。他甚至曾经造访过爱因斯坦，向他讲述自己对于重力的看法。在一个小时的讨论之后，爱因斯坦对纳什说：“年轻人，你应该来学一点物理。”
　　最耀眼的数学家纳什没有遵从他的建议。他认为只有学习数学才能令他重新发现自己。1949年纳什开始研究被当时数学界人士认为是丑姑娘的对策理论。对策理论的创始人是美国数学家约翰·冯·诺伊曼，1944年，诺伊曼和摩根斯顿共同撰写《对策理论与经济行为》的出版标志着现代系统对策理论的诞生。在诺伊曼和摩根斯顿眼里，经济是一种完全科学性的行为，需要数学理论对它进行规范。
　　纳什的行事原则是，正确地提出问题，然后找到唯一的解决之道。他的第一项科学研究，即是在现代经济学中具有里程碑意义的对策论数学。1950年，纳什发表了他的“非合作对策”博士论文，提出了诺伊曼的合作对策论相对立的观点。纳什在论文中引入了著名的“纳什平衡”理论，对有混合利益的竞争者之间的对抗进行了数学分析。纳什向诺伊曼提出他的理论，但是被简单地认为是“对已完善定理的新译法”。但诺伊曼这一回却是大错特错，纳什的非合作对策论，不但奠定了对策论的数学基础，而且在后来得到了商业策略家的广泛应用。
　　1950年，纳什进入兰德研究所工作，这是中央情报局设在圣莫尼卡的一个战略研究机构，雇佣数学家推行冷战时代的对策理论。在军事目的与科学行为相混合的兰德研究所，纳什独特的才华和行为并没有引起上层的足够重视。这年秋天，纳什回到了普林斯顿，决心将全部的精力放在纯粹的数学研究上。纳什需要证明自己的天才，同时他不想让对策理论在人们眼里变得无足轻重。于是他证明了一个几乎无法证明的几何定理。获得了同事的一致尊敬。随后几年中，纳什继续留在普林斯顿和兰德研究所工作。
　　但纳什对科学的最大贡献产生于他1932年在麻省理工学院工作期间，一位同事刺激他说：“既然你如此聪明，为什么解决不了变数问题？”6年后，纳什就把这个问题解决了，他甚至掌握了一些关于水面被打破、原子运动和地震活动的方程式的重要结果。纳什因此被《财富》周刊评为最耀眼的新生数学家。
　　在这些年，纳什的个人生活一直很平静。1954年，纳什失去了他在兰德的工作，因为警察在一次公元里搜捕同性恋的行动中发现并逮捕了他，那时纳什与几位“特殊朋友”保持着联系。但纳什并不只是同性恋，而是双性恋者。他与一位叫埃莉诺·施蒂尔的美丽女子的关系显示了纳什性格中这黑暗残酷的一面。
　　埃莉诺爱上了这位麻绳理工学院富有魅力的光彩夺目的老师，但纳什看不起这位姑娘。他骂她白痴，并经常让她感到自己低人一等。埃莉诺怀孕后，以为纳什会跟她结婚，但她的希望最后落空了。当他们的儿子约翰·戴维·施蒂尔出生后，纳什对这个孩子有过一阵着迷，但拒绝让他姓自己的姓，并坚决不付分娩的费用。回到家后，纳什对这母子俩不理不睬，埃莉诺别无他法，只得离开。但纳什与埃莉诺时而甜蜜，时而冷漠的关系还是持续了4年。
　　对于女人来说，纳什的魅力不可抵挡。与埃莉诺的关系结束后，纳什开始与一位叫艾丽西亚.拉尔德的女学生约会。他们之间的爱是性别和才智上的互相吸引。两人于1957年结婚，这时候艾丽西亚盼望着生个孩子，而纳什则开始为诺贝尔经济学奖而努力。
　　然而，就在纳什30岁，即将成为麻绳理工学院高级教授的时候，他的脑子出现了可怕的问题，经医生诊断，纳什得了妄想型精神分裂症。一天早晨，纳什拿着一份《纽约时报》走进办公室，对着空气说，报纸头版左边的文章里包含着一条来自另一个星球的数字信息，只有他能破解。而在家里，纳什不断地威胁艾丽西亚。最终纳什的家人和朋友决定将他送进医院治疗，但是他们尽量避免伤害纳什脑子的疗法。
　　纳什的病情在好转与复发之间反反复复。艾丽西亚试尽了各种方法，而纳什也在深爱他的妻子的鼓励下，顽强地与疾病做斗争。这位天才生命的后来几十年就在医院、医药、孤独和数学研究中度过。即使是处于病魔的重压之下，纳什仍然被他那令人兴奋的数字理论所驱使者。在这段艰难的时期，纳什的名字开始频频出现于各个地方：关于经济和生物演变的论文，科学政治理论和数学发现，硕果累累。绝对是通过意志的力量，他才一如既往地继续着他的工作，并于1994年获得了诺贝尔奖。

纳什均衡

纳什均衡名称来源及简介：
纳什均衡，Nash equilibrium ,又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。约翰·纳什1948年作为年轻数学博士生进入普林斯顿大学。其研究成果见于题为《非合作博弈》（1950）的博士论文。该博士论文导致了《n人博弈中的均衡点》（1950）和题为《非合作博弈》（1951）两篇论文的发表。纳什在上述论文中，介绍了合作博弈与非合作博弈的区别。他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念，也就是不限于两人零和博弈。该解概念后来被称为纳什均衡。

纳什均衡定义：
假设有n个局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己效用最大化。所有局中人策略构成一个策略组合（Strategy Profile）。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。

纳什均衡经典案例：囚徒困境
（1950年，数学家塔克任斯坦福大学客座教授，在给一些心理学家作讲演时，讲到两个囚犯的故事。）
假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表2.2给出了这个博弈的支付矩阵。
表2.2   囚徒困境博弈
——————————————————————————
　　　　　　　　┃　　　　 B　　   ┃　　　　 B　　 ┃
————————┃————————┃————————┃
　　　　　　　　┃　　　　坦白　 ┃　　　　抵赖　 ┃
————————┃————————┃————————┃
A　　坦白　　 ┃　　 –8, –8　 ┃　　　0, –10　 ┃
————————┃————————┃————————┃
A　　抵赖　　   ┃　　–10, 0　　 ┃　　　 –1, –1　┃
————————┃————————┃————————┃

关于案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，首先应该是从心理学的角度来看，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，我抵赖，得坐10年监狱，坦白最多才8年；他要是抵赖，我就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。

基于经济学中Rational agent的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被释放就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局，纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战：按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

记载纳什生平的书有：《普林斯顿的幽灵》（又译为《美丽心灵》）西尔维娅.娜萨

　　　博弈论(Game Theory)，有时也称为对策论，或者赛局理论，应用数学的一个分支, 目前在生物学，经济学，国际关系，计算机科学, 政治学，军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构（游戏或者博弈（Game)）间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。

　　博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。表面上不同的相互作用可能表现出相似的激励结构(incentive structure)，所以他们是同一个游戏的特例。其中一个有名有趣的应用例子是囚徒困境悖论(Prisoner's dilemma)。

　　具有竞争或对抗性质的行为成为博弈行为。在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋，打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。

　　生物学家使用博弈理论来理解和预测进化论的某些结果。例如，John Maynard Smith 和George R. Price 在1973年发表于Nature上的论文中提出的“evolutionarily stable strategy”的这个概念就是使用了博弈理论。还可以参见进化博弈理论（evolutionary game theory）和行为生态学（behavioral ecology）。

　　博弈论也应用于数学的其他分支，如概率，统计和线性规划等。

[编辑]

博弈论简史

　　对于博弈论的研究，开始于策墨洛(Zermelo,1913)，波雷尔(Borel,1921)及冯·诺伊曼(von Neumann, 1928)，后来由冯·诺伊曼和奥斯卡·摩根斯坦(von Neumann and Morgenstern，1944，1947)首次对其系统化和形式化（参照Myerson, 1991）。随后约翰·福布斯·纳什(John Forbes Nash Jr., 1950, 1951)利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。

　　当代博弈论的“三大家”和“四君子”

　　"三大家" 包括约翰·福布斯·纳什、约翰·C·海萨尼，以及莱因哈德·泽尔腾。这三人同时因为他们对博弈论的突出贡献而获得1994年的瑞典银行经济学奖（也称诺贝尔经济学奖。

　　"四君子" 包括罗伯特·J·奥曼、肯·宾摩尔、戴维·克瑞普斯，以及阿里尔·鲁宾斯坦。

[编辑]

博弈论分类

　　博弈的分类根据不同的基准也有不同的分类。一般认为，博弈主要可以分为合作博弈和非合作博弈。它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

　　从行为的时间序列性，博弈论进一步分为两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。通俗的理解："囚徒困境"就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈

　　按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。

　　目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium)，子博弈精炼纳什均衡（subgame perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium)，精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。

　　博弈论还又很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型，等等。

[编辑]

博弈论的意义

　　博弈论的研究方法和其他许多利用数学工具研究社会经济现象的学科一样，都是从复杂的现象中抽象出基本的元素，对这些元素构成的数学模型进行分析，而后逐步引入对其形势产影响的其他因素，从而分析其结果。

　　基于不同抽象水平，形成三种博弈表述方式，标准型、扩展型和特征函数型利用这三种表述形式,可以研究形形色色的问题。因此,它被称为“社会科学的数学”从理论上讲，博弈论是研究理性的行动者相互作用的形式理论，而实际上正深入到经济学、政治学、社会学等等，被各门社会科学所应用。

[编辑]

博弈论与纳什平衡

　　博弈论（game theory）对人的基本假定是：人是理性的（rational，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。

　　纳什（John Nash）编制的博弈论经典故事"囚徒的困境"，说明了非合作博弈及其均衡解的成立，故称"纳什平衡"。

　　所有的博弈问题都会遇到三个要素。在囚徒的故事中，两个囚徒是当事人(players)又称参与者；当事人所做的选择策略 (strategies)是承认了杀人事实，最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人，另外一个抵赖，不承认杀人，那么承认者将会得到减刑处理，而抵赖者将会得到最严厉的死刑判决，在纳什故事中两个人都承认了犯罪事实，所以两个囚徒得到的是中间的结果。

　　类似的：我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。

　　在互联网这个原始丛林中：最优策略是如何产生的呢？

[编辑]

博弈中最优策略的产生

　　艾克斯罗德（Robert Axelrod）在开始研究合作之前，设定了两个前提：一、每个人都是自私的；二、没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你合作。

　　社会实践中有很多合作的问题。比如国家之间的关税报复，对他国产品提高关税有利于保护本国的经济，但是国家之间互提关税，产品价格就提高了，丧失了竞争力，损害了国际贸易的互补优势。在对策中，由于双方各自追求自己利益的最大化，导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。

　　A和B各表示一个人，他们的选择是完全无差异的。选择C代表合作，选择D代表不合作。如果AB都选择C合作，则两人各得3分；如果一方选C，一方选D，则选C的得零分，选D的得5分；如果AB都选D，双方各得1分。

　　显然，对群体来说最好的结果是双方都选C，各得3分，共得6分。如果一方选C，一方选D，总体得5分。如果两人都选D，总体得2分。

　　对策学界用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于A来说，当对方选 C，他选D得5分，选C只得3分；当对方选D，他选D得1分，选C得零分。因此，无论对方选C或D，对A来说，选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇，即A，B都选D时，结果是各得1分。这个结构在矩阵中并非最优。困境就在于，每个人采取各自的优超策略时，得出的解是稳定的，但不是帕累托最优的，这个结果体现了个体理性与群体理性的矛盾。在数学上，这个一次性决策的矩阵没有最优解。

　　如果博弈进行多次，只要对策者知道博弈次数，他们在最后一次肯定采取互相背叛的策略。既然如此，前面的每一次也就没有合作的必要，因此，在次数已知的多次博弈中，对策者没有一次会合作。

　　如果博弈在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作并达成默契时，对策者就能持续地各得3分，但如果持续地不合作的话，每个人就永远得1分。这样，合作的动机就显现出来。多次对局下，未来的收益应比现在的收益多一个折现率W，W越大，表示未来的收益越重要。在多人对策持续进行下去，且W比较大，即未来充分重要时，最优的策略是与别人采取的策略有关的。假设某人的策略是，第一次合作，以后只要对方不合作一次，他就永不合作。对这种对策者，当然合作下去是上策。假如有的人不管对方采取什么策略，他总是合作，那么总是对他采取不合作的策略得分最多。对于总是不合作的人，也只能采取不合作的策略。

　　艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与前面的矩阵相同，什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。

　　第一轮游戏有14个程序参加，再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作)，运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是，第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。艾克斯罗德还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即"善良的"；第二，对于对方的背叛行为一定要报复，不能总是合作，即" 可激怒的"；第三，不能人家一次背叛，你就没完没了的报复，以后人家只要改为合作，你也要合作，即"宽容性"。

　　为了进一步验证上述结论，艾氏决定邀请更多的人再做一次游戏，并把第一次的结果公开发表。第二次征集到了62个程序，加上他自己的随机程序，又进行了一次竞赛。结果，第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是：第一，"一报还一报"仍是最优策略。第二，前面提到的三个特点仍然有效，因为63人中的前15名里，只有第8名的哈灵顿程序是"不善良的"，后15名中，只有1个总是合作的是"善良的"。可激怒性和宽容性也得到了证明。此外，好的策略还必须具有的一个特点是"清晰性"，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。"一报还一报"就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。

[编辑]

合作的进行过程及规律

　　"一报还一报"的策略在静态的群体中得到了很好的分数，那么，在一个动态的进化的群体中，这种合作者能否产生、发展、生存下去呢？群体是会向合作的方向进化，还是向不合作的方向进化？如果大家开始都不合作，能否在进化过程中产生合作？为了回答这些疑问，艾氏用生态学的原理来分析合作的进化过程。

　　假设对策者所组成的策略群体是一代一代进化下去的，进化的规则包括：一，试错。人们在对待周围环境时，起初不知道该怎么做，于是就试试这个，试试那个，哪个结果好就照哪个去做。第二，遗传。一个人如果合作性好，他的后代的合作基因就多。第三，学习。比赛过程就是对策者相互学习的过程，"一报还一报"的策略好，有的人就愿意学。按这样的思路，艾氏设计了一个实验，假设63个对策者中，谁在第一轮中的得分高，他在第二轮的群体中所占比例就越高，而且是他的得分的正函数。这样，群体的结构就会在进化过程中改变，由此可以看出群体是向什么方向进化的。

　　实验结果很有趣。"一报还一报"原来在群体中占1/63，经过1000代的进化，结构稳定下来时，它占了24%。另外，有一些程序在进化过程中消失了。其中有一个值得研究的程序，即原来前15名中唯一的那个"不善良的"哈灵顿程序，它的对策方案是，首先合作，当发现对方一直在合作，它就突然来个不合作，如果对方立刻报复它，它就恢复合作，如果对方仍然合作，它就继续背叛。这个程序一开始发展很快，但等到除了"一报还一报"之外的其它程序开始消失时，它就开始下降了。因此，以合作系数来测量，群体是越来越合作的。

　　进化实验揭示了一个哲理：一个策略的成功应该以对方的成功为基础。"一报还一报"在两个人对策时，得分不可能超过对方，最多打个平手，但它的总分最高。它赖以生存的基础是很牢固的，因为它让对方得到了高分。哈灵顿程序就不是这样，它得到高分时，对方必然得到低分。它的成功是建立在别人失败的基础上的，而失败者总是要被淘汰的，当失败者被淘汰之后，这个好占别人便宜的成功者也要被淘汰。

　　那么，在一个极端自私者所组成的不合作者的群体中，"一报还一报"能否生存呢？艾氏发现，在得分矩阵和未来的折现系数一定的情况下，可以算出，只要群体的 5%或更多成员是"一报还一报"的，这些合作者就能生存，而且，只要他们的得分超过群体的总平均分，这个合作的群体就会越来越大，最后蔓延到整个群体。反之，无论不合作者在一个合作者占多数的群体中有多大比例，不合作者都是不可能自下而上的。这就说明，社会向合作进化的棘轮是不可逆转的，群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论，突破了"囚犯困境"的研究困境。

　　在研究中发现，合作的必要条件是：第一、关系要持续，一次性的或有限次的博弈中，对策者是没有合作动机的；第二、对对方的行为要做出回报，一个永远合作的对策者是不会有人跟他合作的。

　　那么，如何提高合作性呢？首先，要建立持久的关系，即使是爱情也需要建立婚姻契约以维持双方的合作。（火车站的小贩为什么要骗人？为什么工作中要形成小组制度？换防的时候一方总是要小小地进攻一下的，在中越前线就是这样）第二、要增强识别对方行动的能力，如果不清楚对方是合作还是不合作，就没法回报他了。第三、要维持声誉，说要报复就一定要做到，人家才知道你是不好欺负的，才不敢不与你合作。第四、能够分步完成的对局不要一次完成，以维持长久关系，比如，贸易、谈判都要分步进行，以促使对方采取合作态度。第五、不要嫉妒人家的成功，"一报还一报"正是这样的典范。第六、不要首先背叛，以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报，对合作也要作出回报。第八、不要耍小聪明，占人家便宜。

　　艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件，即使是敌人，只要满足了关系持续，互相回报的条件，也有可能合作。比如，第一次世界大战期间，德英两军在战壕战中遇上了三个月的雨季，双方在这三个月中达成了默契，互相不攻击对方的粮车给养，到大反攻时再你死我活地打。这个例子说明，友谊不是合作的前提。第二、预见性也不是合作的前提，艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是，当有预见性的人类了解了合作的规律之后，合作进化的过程就会加快。这时，预见性是有用的，学习也是有用的。

　　当游戏中考虑到随机干扰，即对策者由于误会而开始互相背叛的情形时，吴坚忠博士经研究发现，以修正的"一报还一报"，即以一定的概率不报复对方的背叛，和 "悔过的一报还一报"，即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强，"悔过的一报还一报"效果越好，"宽大的一报还一报"效果越差。

[编辑]

艾克斯罗德的贡献与局限性

　　艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境，达成合作，将这项研究带到了一个全新境界，他在数学上的证明无疑是十分雄辩和令人信服的，而且，他在计算机模拟中得出的一些结论是非常惊人的发现，比如，总分最高的人在每次博弈中都没有拿到最高分。（刘邦和项羽的战争）

　　艾氏所发现的"一报还一报"策略，从社会学的角度可以看作是一种"互惠式利他"，这种行为的动机是个人私利，但它的结果是双方获利，并通过互惠式利他有可能复盖了范围最广的社会生活，人们通过送礼及回报，形成了一种社会生活的秩序，这种秩序即使在多年隔绝，语言不通的人群之间也是最易理解的东西。比如，哥伦布登上美洲大陆时，与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为，比如无偿损赠，也通过某些间接方式，比如社会声誉的获得，得到了回报。研究这种行为，将对我们理解社会生活有很重要的意义。

　　囚徒困境扩展为多人博弈时，就体现了一个更广泛的问题──"社会悖论"，或"资源悖论"。人类共有的资源是有限的，当每个人都试图从有限的资源中多拿一点儿时，就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞，都可以在社会悖论中得以解释，在这些问题中，关键是通过研究，制定游戏规则来控制每个人的行为。

　　艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应，"投桃报李"、"人不犯我，我不犯人"都体现了"tit for tat"的思想。但这些东西并不是最优的，因为"一报还一报"在充满了随机性的现实社会生活里是有缺陷的。对此，孔子在几千年前就说出了"以德报德，以直报怨"这样精彩的修正策略，所谓"直"，就是公正，以公正来回报对方的背叛，是一种修正了的"一报还一报"，修正的是报复的程度，本来会让你损失5分，现在只让你损失3分，从而以一种公正审判来结束代代相续的报复，形成文明。

　　但是，艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先，《合作的进化》一书暗含着一个重要的假定，即，个体之间的博弈是完全无差异的。现实的博弈中，对策者之间绝对的平等是不可能达到的。一方面，对策者在实际的实力上有差异，双方互相背叛时，可能不是各得1分，而是强者得5分，弱者得0分，这样，弱者的报复就毫无意义。另一方面，即使对局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形，而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此，程序还可以在此基础上进一步改进。

　　其次，艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术，合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史，以便作出反应，这些都暗含着"预期"行为。在应付复杂的对策环境时，信任可能是对局双方达成合作的必不可少的环节。但是，预期与信任如何在计算机的程序中体现出来，仍是需要研究的。

　　最后，重复博弈在现实中是很难完全实现的。一次性博弈的大量存在，引发了很多不合作的行为，而且，对策的一方在遭到对方背叛之后，往往没有机会也没有还手之力去进行报复。比如，资本积累阶段的违约行为，国家之间的核威慑。在这些情况下，社会要使交易能够进行，并且防止不合作行为，必须通过法制手段，以法律的惩罚代替个人之间的"一报还一报"，规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。