进化稳定策略及其应用

来自：成为亨特 > 馆藏分类

配色：

字号：大中小

进化稳定策略及其应用

2013-12-10 | 阅：转： | 分享

例如，一个雄性粪蝇在寻觅雌蝇时的最优占位往往取决于其它雄蝇停落在什么位置；在争夺配偶的战斗中，一个雄性动物的最佳对策经常取决于他的对手如何行
动，有时退让是有利的，有时激烈争斗是更适合的。在这些例子中，不存在一个任何情形下都一律适用的最佳对策。这时我们观察到的自然界生物它
们应该采取何种对策呢？为解决这一难题，MaynardSmith（1982；MaynardSmith&Price1973）
创造性地提出了一个全新概念––进化稳定对策，或称ESS（为英文全称evolutionarilystablestrategy的简
写）。当种群内所有个体都采取了某个对策后，其它对策者都不能侵入该种群，那么这个对策就是进化上稳定的。这个概念不强调绝对意义上的优化
，而是从相对意义上寻求所谓的最佳：当种群完全是由ESS对策者组成的时候，ESS对策者的适合度将大于所有突变对策者的适合度。因而，E
SS是一个弱化了的最优化概念（Ehrlich&Roughgarden1987）。单态ESS定义对所有不同于S的个体策
略S，如果有E(S,S)>=E(S,S)如果在上式中的等式成立，则
E(S,S)>E(S,S)那么，称S为单态ESS在单种群进化博弈中，ESS是对称纳什均衡，但对称纳什均衡不一定是E
SS。（交换经济博弈）经济交换博弈（L,L）不是单态ESS。策略L用S=（1，0）表示，策略H用S=（0，1）表示
E(S,S)=(1,0)=1E(S,S)=1=E(S,S)而E(S,
S)==1<2=E(S,S)所以策略L不是单态ESS多态ESS（对于有多个个人策略）定义对所
有不同于S的Sm，如果有E(S,S)>=E(S,S)如果在上式中的等
式成立，则E(S,S)>E(S,S)那么，称S为一个ESS。设A=为进化博
弈的行为参与人的支付矩阵，如果存在使，
则第个策略是进化稳定策略严格对称的纳什均衡是进化稳定策略，但是进化稳定策略
不一定是严格的纳什均衡。（鹰鸽博弈）鹰鸽博弈解得p=1/4。当p<1/4时，选择鹰策略的预期收入超过了鸽策略;当p>1/4时
，则相反。所以进化将导致种群1/4的参与人使用鹰策略。混合策略（1/4,3/4）是ESS。证:S=(1/4,3/4)S为任意
其他策略(p,1-p),p≠1/4。E(S,S)==3/4=E(S,S)
而E(S,S)==5/4-2pE(S,S)=
=1-4p2比较上面两式：E(S,S)>E(S,S)恒成立混合策略（1/4,3/4）是ESS协调博弈设某一同质种群
的成员任意配对。在这博弈中，(L,L)(D,D)都是严格对称纳什均衡，所以L和D都是ESS。(S,S)是对称混合策略均衡，其
中S=(1/4,3/4)。为了使它为ESS必须使E(S,S)>E(S,S)成立(S≠S)在此博弈中参与人选择同一行动要好
于选择不同行动，所以这个条件不满足，最可能背离在这个条件的S是纯策略L，这种情况下，E(S,S)=3,E(S,S)=3/4
，确实背离了条件E(S,S)>E(S,S).局部渐进稳定性判断纳什均衡是否为ESS动态方程——复制者动态增长率
等于参与人的适合度减去他的平均适合度用此法进行协调博弈分析:将A带入得当初始
状态p0<1/4时，参与人的进化稳定策略是D;当p0>1/4时，参与人进化稳定策略是L注：两种群进化稳定策略定义：对于在△m
×△n中(x,y)的一些邻域中的所有其他(x,y)，要么x·Ay>x·Ay，要么y·Bx>y·Bx，那么称(x,y)为
一个ESS.定理:如果(x,y)是双矩阵博弈的一个ESS，那么x和y分别是△m和△n中的纯策略在单种群鹰鸽博弈中，混
合策略是ESS，在两种群下则不是。假设p是行参与人选择鹰策略(H)的概率，q是列参与人选择鹰策略的概率。行参与人的预期支付为：
E(H)=q(-3)+2(1-q)=2-5qE(D)=q×0+(1-q)×1=1-q对于列参与人其支付
矩阵与行参与人相同，于是E’(H)=p(-3)+2(1-p)=2-5pE’(D)=p×0+(1
-p)×1=1-p按照学习规则，当q<1/4时，行参与人将p上调;当p<1/4时，列参与人将q上调。(p,q)平面上的的点(
1/4,1/4)处的纳什均衡不是稳定的，此时x=(1/4,3/4)和y=(1/4,3/4)。现在考虑(x,y)=((p,1-
p),(q,1-q))≠(x,y),检验是否为ESSx·Ay=1/4(2-5q)+3/4(1-q)=5/4-2q
(1)x·Ay=p(2-5q)+(
1-p)(1-q)=1+p-q-4pq(2)由上两式得x·Ay-x·Ay=4(1/4-p)(1/4-q)(3
)显然只有当p,q都超过1/4或两个都小于1/4时，(3)式才大于零，其他p,q组合都使(3)式小于零，就是x·Ay>x·A
y不成立，同理可证(x,y)的一些邻域使得y·Bx>y·Bx不成立，因此(x,y)不是一个ESS。下验证两个纯策略
纳什均衡是ESS。引入动态方程——复制者动态行参与者的复制者动态为将A带入得
(4)同理得列参与人的复制者动态为
(5)
以上两动态系统有5个平衡点(0,1),(1,0),(0,0),(1,1),(1/4,1/4).以上已经证明混合策略纳什均衡(
1/4,1/4)不是ESS，而(0,0),(1,1)不是纳什均衡，只证(1,0)是否为ESS，对于两种群两策略的双矩阵进化博弈，要
证平衡点是否为ESS，只要证明复制者动态方程的平衡点是进化均衡。动态系统的雅可比矩阵为雅可比行列式为detJ=(
1-2P)(1-2q)(1-4p)(1-4q)-16pq(1-p)(1-q)雅可比矩阵的迹为trJ=(1-2p)(1
-4q)+(1-2q)(1-4p)在平衡点(1,0),有detJ=3>0和trJ=-4<0。这样该点是局部渐进稳定的。同理可证(
0,1)是ESS。3.1鹰鸽对策与进化稳定对策概念的提出自然界的每一动物都经常要与其它个体争夺食物
、领域和配偶等有限资源。进化稳定对策概念的起源很大程度上是和分析这些动物争斗行为联系在一起的（MaynardSmith&Pr
ice1973），其后又被推广应用到其它各式各样频率依赖选择（frequency-dependentselection）的情形
（MaynardSmith1982）。进化稳定对策理论与传统种群遗传学对频率依赖选择的研究相比，最明显的差别可能主要是强调的重
点不同。种群遗传学家主要考察基因频率的动态以及平衡态的性质，目的是探讨不同类型的选择对一个位点上不同基因型的效应。为了分析上的方便
，对策集经常被高度简化，经常是只考虑对应于两个等位基因的两个对策。而ESS理论家对于遗传学系统本身的问题考虑很少，经常假定对策可以
无性繁殖或者有机体是单倍体。这种遗传学上的高度简化使得人们可以考察更为复杂、更为广泛的对策集，以及对策之间更加微妙的适合度相互作用
。用MaynardSmith的话说，ESS概念的精髓就是‘假定简单化的遗传学而考察复杂的生态学’（Hines1987）。另外
一点不同是，ESS只注重考虑种群达到平衡时的性质，而基本上忽略了动态。容易看到，种群遗传学和ESS理论各自都在不同方面上作了一些不
现实的假定，因此二者之间更具有互补性，而不是相互对立。令V表示被争夺资源的价值；胜利的一方获得该资源并使适合度增加V；争
斗失败的鹰对策者其适合度损失C。鹰鸽对策的赢得矩阵（payoffmatrix）可以表示为表3.1。在完全由鸽对策者组成的种群里，
鹰对策者一旦进入它的适合度将可增加V，而鸽对策者的适合度只能增加V/2（未考虑对峙带来的能量或时间消耗）；因此，我们得出结论：鸽对
策属于在进化上不稳定的类型，它将很容易地被鹰对策侵入。那么完全的鹰对策种群是否就是进化稳定的呢？根据表3.1我们容易看到，鹰对策是
否为进化稳定的对策取决于V和C值的相对大小。在一个鹰对策种群里，鹰对策者的平均赢得为(V-C)/2，而侵入的鸽对策者的赢得为0。如
果V>C，那么鹰对策者的适合度大于鸽对策者的适合度；反之，如果V种群。这时我们看到，无论是纯鹰对策种群还是纯鸽对策种群都不是进化稳定的。所以，种群必然是一个鹰、鸽对策的混合体。那么鹰、鸽对策者在
种群内各自所占比例应该是多少呢？令p为种群内鹰对策者所占比例。鹰、鸽对策者的适合度可以分别表示为（3.1）其
中，W0表示与对策无关的基本适合度。鹰对策者和鸽对策者的适合度都不是恒定值，依赖于种群内鹰、鸽对策的相对比例，因而我们称其为频率依
赖的选择（frequency-dependentselection）。假定个体无性生殖，鹰对策者生育的后代都是鹰对策者，鸽对策者
生育的后代也都是鸽对策者，并且每个个体生育的后代数量与其适合度成正比。一代之后，鹰对策者的频率将为（3.2）其中
。方程（3.2）准确地描述了系统的动态。知道了V和C的值以及初始的鹰对策者频率就
可以很容易地计算种群内鹰对策者频率的变化过程。然而，对于这类频率依赖的选择，人们往往更关心的是系统将向什么状态趋近，或者说稳定的系
统状态是什么。在一个稳定种群内，鹰、鸽对策者的适合度应该相等，即Wh=Wd；据此我们可以求出鹰对策者的比例为
。如果C值相对于V值来说很大，那么种群内鹰对策者的比例将会很低，鹰-鹰争斗的情形也将极为罕见。我们当然不能期望这个高度简化的模型能
够完全解释为什么动物个体间争斗不产生严重伤害的后果。但是这个模型至少可以帮助我们理解为什么在自然界导致严重伤害的激烈争斗非常罕见。
上面我们假定个体要么是纯粹的鹰对策者、要么是纯粹的鸽对策者。或者说种群在遗传构成上是多态的。ESS也可以用另一种方式来达到：种
群内每个个体都以一定概率采取两种对策，而且在每次博弈中所采取的对策必须是随机确定的。这时种群在遗传构成上是单态的，但表现型上是两种
对策共存。以表3.1赢得矩阵为例，ESS对策是以V/C的概率采取鹰对策，以（1–V/C）的概率采取鸽对策。在对策论中，人们通常考虑
遗传上单态的ESS，而往往忽略了遗传多态所带来的复杂性。隐含在上面这个模型中的一个重要假设是无性生殖。为了使问题简化，人们经常明确
或暗含地假设无性（孤雌）生殖，或者真实遗传（breedtrue），即通俗地说就是“龙生龙，凤生凤”；后代与亲代之间由于有性生殖过
程而必然存在的遗传差异被忽略了。因为我们面对的有机体绝大多数都是有性生殖的二倍体生物，所以这个假设只能理解为对非常复杂问题的一个初
步探索。MaynardSmith（1982）认为，忽略有性生殖多数情形下不会产生太大的影响。值得注意的是，在ESS种群内每个
个体的期望赢得为，而在纯鸽对策种群内每个个体的期望赢得为V/2。虽然纯鸽对策种群个体平均适合度大于ES
S种群内个体的平均适合度，但它是一个不稳定的种群，随时都有可能受到其它对策（鹰对策）的侵蚀。人们普遍相信，自然选择所选择的最终结果
应该是稳定的、不会受到任何其它对策侵蚀的ESS种群。ESS，与最优化理论一样，都是只能从可供选择的对策集（strategys
et）中选取“最佳”的对策。所以进化稳定对策也将受到可供选择的对策范围所制约。为了说明这一点，让我们在上面的鹰鸽对策的博弈中再增加
一种对策，中庸对策。中庸对策者表现的行为是：当自己是资源（例如一块领域）占有者时表现为鹰，当自己是入侵者时表现为鸽；并且假定中庸对
策者表现为鹰（资源占有者）或鸽（入侵者）的概率相等。赢得矩阵为表3.2。当两个中庸相遇时，一个肯定是资源占有者并采取鹰对策，而另一
个则是入侵者并采取鸽对策。我们容易证明，当V有多少可供选择的对策.同时，这个博弈与前面的鹰鸽博弈还有一个不同之处:鹰鸽博弈是对称的，而表3.2的博弈是非对称的。所谓对称是
指争斗双方处于完全等同的地位：它们可选择的对策集相同，它们的期望赢得也相同。而在鹰-鸽-中庸博弈中，中庸对策者根据其对资源的拥有状
况选取相应的对策，因而争斗双方在对策的选择上不是完全对等的。后面我们还将回到这个博弈问题上来。对称的二人博弈现在我们来考察对称
的、二人进化博弈的一些一般性质。假设有m个可能的对策，表示为1，2，…，m。博弈（争斗）可以发生在任何一对随机选取的动物个体之间。
赢得矩阵{dij}为m×m，其中dij表示采取对策i的动物与j对策者博弈时的赢得值（适合度增加值）。系统动态可以用两种稍有不同
的方式进行分析。首先，我们假定一个个体总是采取相同的纯对策，并且这种特性被它所有后代所继承。令ni为i对策者在某一时刻的个体数
量，pi为它们的相对频率。一个i对策者的适合度为（3.3）种群的平均适合度为（3.4）各个对
策的个体数量增加符合下列方程（3.5）因此，我们可以得到
（3.6）当系统达到平衡时，即，必然有或者。因此在系统达到平衡态时，所有频率不为零的对策它们的适合度必然相等。在频
率依赖的选择下，各个类型的频率将受到调整以使它们的适合度正好相等。我们还需要确定一个系统平衡态是否是局域稳定的；数学上这可以通过解
雅可比矩阵的特征根来判断。模型（3.6）的一个稳定平衡态，，称为进化稳定的状态（evolutionarilystablest
ate）；其中代表平衡种群内采用i对策的个体所占的比例。这个模型的结果是导致产生各种纯对策的多态，也被称为“纯对策模型”（pure
strategymodel;Bulmer1994）。而另外一种在博弈论中更常见的途径是认为，个体可以采取混合对策，即是以一
定概率采取各个纯对策。例如，在前面介绍的鹰鸽博弈中，动物可能以50%的概率采取鹰对策，以50%的概率采取鸽对策。然后，我们来寻找这
样的混合对策（或者纯对策），当它在种群内被所有成员采纳时，任何其它对策都不能成功地侵入。这样的一个对策就称为进化稳定对策，或者简称
为ESS。这种途径的一个优点是我们不必明确考虑系统平衡态的动态稳定性问题。考虑混合对策p和q，它们分别以概率pi和qi采
用纯对策i。一个p对策者与q对策者博弈时其平均赢得值（用表示）为（3.7）或者我们用矩阵形式表示，即
（3.8）如果对策p是个ESS，那么当它的适合度必须大于突变对策q的适合度。用x表示q在种群内的频率，对策p和q的适合度分别为

（3.9）p为ESS的条件是当x无限小时，对于所有的q≠p都有WP>Wq；因此，如果满足条件（3.
10）那么p即为ESS；如果则需要满足（3.11）p才是一个ESS。（3.10）式是说，对策p是对自己的最
好应答。如果你知道你的对手将采取对策p，那么你别无选择只能也采取对策p，因为采取任何其它对策都不如采取对策p好。换言之，这要求p是
一个严格的Nash平衡（Nash1951）。（3.11）式则是说，如果q是另外一个同样好的对于p的应答，那么p对q的应答就必须比
q对自己的应答更好。这个条件保证了任何稀有突变，q-对策者，都不能侵入p-对策者组成的种群。这时的p我们说是一个弱Nash平衡。所
有具有非零概率的纯对策组分就称为混合对策p的支集（support）。支集中各个组分概率相加应该等于1。对于ESS混合对策p来说
，支集中任一纯对策k都有（3.12）我们使用反证法证明这个结果。假设。定义一个新的q对策，它的支集除了纯对策k外所
有其它组分均与p相同；相应的概率为qi=pi/(1-pk)，i?k。重新整理E(p,p)如下:因此有E(p,p))，与p为ESS的假设相矛盾。这个结果是由Bishop&Cannings(1978)最先给出的，在进化博弈论中被称为Bish
op-Cannings定理。如果对策不是离散的而是连续的，Bishop-Cannings定理可以很容易地推广到连续对策的情形，此处
不再赘述。下面我们分析几个具体的生物学应用实例。相互利他行为与囚犯的困境Trivers（1971）提出，遗传上没有亲缘
关系的个体之间也可以进化产生利他行为。这种相互利他行为的出现是因为利他付出代价很小而收益方得到的收获却很大；这样如果个体之间能够相
互回报，它们都可以从利他行为中获得较大适合度收益。问题是，无论是进化上还是在人类社会里，怎样有效地防止欺骗对策侵入？由于在一个个体
的利他行为和受益者的回报行为之间存在着一定的时间间隔，所以有可能一个个体会采取这样对策：今天它接受对方的帮助，但明天却拒绝给对方提
供同样的帮助。这种欺骗行为能够为自然选择所淘汰吗？或者说，相互合作的利他行为能否抵抗住欺骗行为的侵蚀？因为一个个体所采取对策是好还
是坏依赖于对方所采取的对策是什么，所以这是频率依赖的选择，需要采用博弈论来分析。下面我们考虑一个简单的博弈。在一场博弈中，博弈双方
（A和B）都面临着两个可能的抉择：或者合作或者欺骗。表3.3是这种博弈的赢得矩阵，它给出了博弈双方各种对策组合的赢得值。这些赢得值
代表的是适合度得分，即所得到的后代数。采取合作行为的个体需要付出一定代价，可用c表示；但合作的行为可以给受益者带来较大的收益，用b
来表示；这里我们假定收益大于代价如果双方都欺骗，那么即无代价也无收获；如果双方合作，那么赢得值为收益减去代价，即b-c。容易看
出，在这个博弈中只有欺骗是ESS。在ESS种群内每个个体的赢得值都是0；但是，如果个体都采取合作对策，那么对它们都是有利的。这种类
型的博弈使个体行为在进化上陷入了一种困境，说明自然选择可以在群体水平上产生消极影响。在进化生物学中，这类‘合作对大家都有利但最终却
都陷入欺骗泥潭’的问题通常被称为囚犯的困境（prisoner’sdilemma）。这个名称的由来是因为最初的博弈模型是以两个合谋
犯罪的囚犯为原型而构造的；每个囚犯都可以揭发对方开脱自己（欺骗），或者是守口如瓶（合作）使法官对谁都无法定罪。如果一方检举而另一方
守口如瓶，那么检举者将被无罪释放而由沉默一方承担所有的罪责。尽管合作可以使两个囚犯都得以释放，但互相揭发并均受到惩罚才是必然的结果
。表3.3所示的博弈如果在两个个体之间只进行一次，那么欺骗行为是不可避免的；但如果博弈可以反复进行多次，那么个体可以根据过去相
互作用的历史而采取更为复杂的对策，并使得个体合作有了可能。Axelrod(1984)曾经组织了一次比赛；他把来自世界各地博弈理
论家所提出的62种不同行为对策在计算机内进行了演算。在比赛中，每个参赛对策都要与所有其它参赛对策相遇，并博弈200次，然后计算平均
赢得值。获胜者是一个非常简单的“一还一报”（titfortat）对策：第一轮相遇总是采取合作对策，以后再相遇时就采取对手上次相
遇所使用的对策。Axelrod总结了一还一报对策成功的原因；善良，因为从不先欺骗；宽容，对于对手的一次偶尔的欺骗行为只给予一次反击
；报复，不管什么时候只要对方表现出欺骗行为它就不再合作。Axelrod与Hamilton（1981）一道共同探讨了一还一报对策在进
化上的意义。我们已经看到，如果博弈只进行一次，只有欺骗才是稳定的对策。这个结论对于任何固定次数的博弈也同样成立，理由如下。在最后一
轮的博弈中，只有欺骗才是稳定的；同样在次最后一轮也是如此，因为下一轮的对策是确定的。如此反复直到第一轮；每一轮博弈个体将都是采取欺
骗对策。然而，更加现实的假设不是让博弈次数恒定，而是两个博弈者以某一概率再次相遇。这个博弈被叫做多次重复的囚犯困境（iterate
dprisoner’sdilemma）；它已被广泛地用作为分析合作进化的模型（Axelrod&Dion1988）。因为可
能的对策非常多，所以理论分析常常太复杂。这里我们只限于三种对策情形：永远欺骗（AD），一还一报（TFT），和永远合作（AC）首
先考虑只有AD和TFT两个对策的情况。TFT和自己博弈时的赢得值为其它赢得值都很容易计算赢得矩阵如表3.4；。在这个博弈里，
AD在任何时候都是ESS；而且如果(b-c)/(1-p)>b，或者pb>c，TFT也是个ESS。虽然一还一报对策一旦固定下来就会保
持稳定，但是它最初如何能够打入一个完全由不合作的骗子所组成的种群呢？要知道，骗子种群也是一个稳定的、可以抵抗其它对策侵蚀的种群。A
xelrod&Hamilton（1981）认为有两种可能的解决办法：（1）合作行为最初可能出现在有亲缘关系的个体之间（亲缘选择
），然后散布开也包括了无亲缘关系的个体；自然选择将保留能够指示亲缘关系的一些特征。这些特征之一就是合作行为的相互回报。（2）具有合
作倾向的TFT个体可能聚集在一起形成一个小圈子，然后再从这个小圈子向外散步；但从不合作向相互利他转变显然是困难的。现在我们引入第
三个对策，永远合作（AC）。赢得矩阵为表3.5。注意，在TFT和AC博弈时二者将表现完全相同；TFT对策的优越性只表现在它和AD
博弈时。如果pb>c，TFT将是一个弱Nash平衡，但不是ESS。在一个纯粹TFT对策的种群里，AC个体与TFT个体有相同的适合度
，因而可通过漂变侵入TFT种群。一旦AC在种群内拥有一定比例，AD对策就可以侵入，因为AD可以靠剥削AC而走向繁荣。TFT对策还
有一个缺陷是它对一次偶然失误很敏感；两个TFT博弈者之中任何一个如果因为失误欺骗了一次，他们今后将卷入到一个欺骗/合作交替系列当中
，而不再是完全合作。TFT对策的这些缺点促使人们努力寻找更强健的替代对策。Nowak&Sigmund（1993）表明巴甫洛夫对
策比一还一报（TFT）对策更优越，因为巴甫洛夫对策能够改正偶尔的错误，同时还能剥削永远合作（AC）的对策者。巴甫洛夫对策者采取的规
则是：如果上次博弈是成功的（赢得大于0）就重复上次的对策；如果上次博弈是不成功的（赢得等于或小于0）那么就采取和上次相反的对策。因
此，对于巴甫洛夫对策者，无论上次双方合作还是双方不合作，这次都采取合作；只有上次一方合作而另一方欺骗时，被欺骗的一方才会采取欺骗行
为。相互回报式利他行为的一个很好的实例就是吸血蝠的反吐喂食现象（Wilkinson1984）。许多吸血蝠夜晚觅食时吸不到血；它们
白天向其它个体乞食一些血液，这些昨晚吸饱了的个体常常反吐一些食物给饥饿的同伴。很少一点食物可以大大提高受惠者存活的机会，而施与者受
到很小的影响。所以，相互回报利他的条件是满足的。然而，反吐喂食行为只发生在近亲个体，以及经常同栖一地的个体之间。很可能这
个行为的出现是由亲属选择导致的；“同栖一地”被当做为“亲属”的指示器。既然这种反吐喂食行为已经散步开，它已成为相互回报式利他的一个
稳定的例子，并且没有选择压力使个体使用比“同栖一地”更可靠的指示器。对于不是经常同栖一地的个体，反吐喂食行为的发生有两个障碍。首先
，它们再次相遇的概率很小，因此反吐喂食将不是稳定的ESS；其次，非同栖一地的个体之间关系应处于一个不合作的ESS状态；个体将很难从
这个不合作的ESS中解放出来。以上我们只考虑了离散对策问题。但在自然界中，许多博弈对策问题不是一个“非此即彼”的有限形式，而是
在两个或多个极端中间有无限多的连续过渡连续对策的消耗战（warofattrition）模型消耗战模型考虑的情形与鹰鸽对
策模型基本类似，但它不考虑使战斗升级并造成伤害的可能性。两个个体可以说都是“鸽对策者”，谁能取得胜利是由坚持的时间长短决定的。如果
谁比对手坚持时间长，那么谁就是胜利者。坚持时间的长短（对策）是在争斗开始之前预决定好了的。令V为胜利后得到的适合度收益；c为消耗代
价的速率参数：对峙时间为t时，累计适合度代价为ct。对于一个采取纯对策T的种群，平均赢得为（3.13）如果cT/2，那么任何突变对策t>T都将可以侵入种群，因为（
3.14）这里需要注意的是，由于T对策者首先放弃了等待，所以t对策者的实际等待时间是T，代价为cT。同样道理，如果cT≥V/2，
那么t=0对策总可以侵入种群。因此不存在纯对策的ESS。假设有一个混合对策，I，它以概率p(t)采取坚持时间长度为t的对策。如
果I是一个ESS对策，那么任何一个纯对策t?，即总是只坚持t?时间，与I博弈都必须具有相同的赢得（连续对策情形下的Bishop-C
annings定理）。因此，
=常数A （3.15）上式中的第一个积分项为t?胜利时的适合度赢得，第二个积分
项为t?失败时的适合度损失。对它求导数我们有根据定义我们知道，所以最终我们可以解出（3.16）现在我们知道，ES
S必须根据这个负指数概率分布来确定坚持时间。为了确定负指数分布真正是一个ESS，我们还须证明对于所有的J，当E(J,I)=E(I,
I)时有E(I,J)>E(J,J)，即满足条件（3.11）的要求。对于J是纯对策的情形可以很容易地证明；Bishop&Cann
ings(1978)对于J为混合对策的情形也给出了一个严格的证明。 Parker(1970a,b；1984)对于牛粪堆上雄
蝇为等待雌蝇到来交配所花费的时间问题开展了深入研究工作。Parker表明，随着时间推移雄蝇陆续离开，等待时间确实服从负指数分布，与
上面消耗战理论预测的结果是一致的。但目前还不清楚，这种负指数分布是由于不同个体所等待的时间不同（遗传多态）还是由于每个个体都是混合
对策者（即每个个体等待时间都是可变的）。而且有一点需要特别注意：消耗战理论是根据二人博弈建立的，而Parker研究的例子却是一个多
人博弈问题，即一个雄蝇不是只与另一个雄蝇进行成对的对抗（pairwisecontest），而是同时与许多其它雄蝇进行多人集体博弈
（playingthefield；MaynardSmith1982）。目前理论上还未严格证明等待时间为负指数分布在多人博弈
时仍然成立。Parker还记录了每一只雄蝇所获得的交配机会，发现采取不同等待时间的雄蝇大体上都获得了相同的交配机会。这也与消耗战理
论的预测相一致。上式中的第一个积分项为t?胜利时的适合度赢得，第二个积分项为t?失败时的适合度损失。对它求导数我们有根据定义
我们知道，所以最终我们可以解出（3.16）现在我们知道，ESS必须根据这个负指数概率分布来确定坚持时间。为了确定负
指数分布真正是一个ESS，我们还须证明对于所有的J，当E(J,I)=E(I,I)时有E(I,J)>E(J,J)，即满足条件（3.1
1）的要求。对于J是纯对策的情形可以很容易地证明；Bishop&Cannings(1978)对于J为混合对策的情形也给出了一
个严格的证明。 Parker(1970a,b；1984)对于牛粪堆上雄蝇为等待雌蝇到来交配所花费的时间问题开展了深入研究工作
。Parker表明，随着时间推移雄蝇陆续离开，等待时间确实服从负指数分布，与上面消耗战理论预测的结果是一致的。但目前还不清楚，这种
负指数分布是由于不同个体所等待的时间不同（遗传多态）还是由于每个个体都是混合对策者（即每个个体等待时间都是可变的）。而且有一点需要
特别注意：消耗战理论是根据二人博弈建立的，而Parker研究的例子却是一个多人博弈问题，即一个雄蝇不是只与另一个雄蝇进行成对的对抗
（pairwisecontest），而是同时与许多其它雄蝇进行多人集体博弈（playingthefield；Maynard
Smith1982）。目前理论上还未严格证明等待时间为负指数分布在多人博弈时仍然成立。Parker还记录了每一只雄蝇所获得的交配
机会，发现采取不同等待时间的雄蝇大体上都获得了相同的交配机会。这也与消耗战理论的预测相一致。Parker还记录了每一只雄蝇所
获得的交配机会，发现采取不同等待时间的雄蝇大体上都获得了相同的交配机会。这也与消耗战理论的预测相一致。Parker表明，随着时间推
移雄蝇陆续离开，等待时间确实服从负指数分布，与上面消耗战理论预测的结果是一致的。但目前还不清楚，这种负指数分布是由于不同个体所等待
的时间不同（遗传多态）还是由于每个个体都是混合对策者（即每个个体等待时间都是可变的）。而且有一点需要特别注意：消耗战理论是根据二人
博弈建立的，而Parker研究的例子却是一个多人博弈问题，即一个雄蝇不是只与另一个雄蝇进行成对的对抗（pairwiseconte
st），而是同时与许多其它雄蝇进行多人集体博弈（playingthefield；MaynardSmith1982）。目前理
论上还未严格证明等待时间为负指数分布在多人博弈时仍然成立。Parker还记录了每一只雄蝇所获得的交配机会，发现采取不同等待时间的雄
蝇大体上都获得了相同的交配机会。这也与消耗战理论的预测相一致。非对称博弈以上我们主要分析了对称博弈问题，即两个博弈
者是完全相同的：它们的回报相同；获胜几率至少就它们所知是相同的；而且也没有任何其它线索可以用来帮助决定采取何种对策。因此，任何一个
可行解都必然是对称Nash平衡，其中两个博弈者都使用相同的对策，即是说平衡的对策必须是对自己为最佳的应答。然而真实世界中大多数成对
的动物争斗都是非对称的，即是说争斗者之间在角色上有所不同：它们可能是一个雄性个体、一个雌性个体；一个较大、另一个较小的雄体；一个领
域占有者、一个入侵者，等等。两个博弈者角色的不同可能会影响争斗的结果或者各自的赢得。既使不影响赢得，在博弈开始时博弈者就知道的角色
差异常常被用来作为决定采取何种对策的基础，导致出现非对称的Nash平衡。例如，在鹰-鸽-中庸对策中（表3.2），中庸对策者在作为资
源占有者时总是鹰对策者，在作为入侵者时则总是鸽对策者。为了利用上面介绍的对称博弈方法来分析非对称博弈问题，我们可以通过引入条件
对策的思想而把非对称博弈对称化。考虑两个角色不同的个体，A和B（如占有者/入侵者；雄体/雌体；大个体/小个体等）。我们假定两个博弈
者都知道它们各自的以及对方的角色。再假定A有m个可供挑选的对策；B有n个可供挑选的对策；这些对策可能相同也可能不同。我们用表示角色
为A的个体在A采取对策i而对方采取对策j时的赢得值；则为B的赢得值。现在我们引入总数为mn个的条件对策，i/j：“在角色A和角色
B个体的争斗中，如果我是A采取对策i；如果我是B采取对策j。”在对策i/j的个体与对策k/l的个体博弈中，i/j个体有相同的可能性
来扮演角色A或角色B；因此，它的赢得值为
（3.17）这个式子定义了一个mn维的赢得矩阵。对于这个博弈，我们可以采取和上面相同的对称二人博弈方法来加以分析。上述的非
对称博弈是一个完全信息博弈；博弈双方都知道自己在博弈中的利益和代价所在。完全信息非对称博弈模型的一个普遍性质为，ESS肯定是纯对策
（Selten1980）。利用这个结果，我们能够很容易地鉴别哪些纯对策是ESS。我们只需比较对称化的赢得矩阵内对角线上的项是否比
其它同列项大即可。考虑一个资源占有者和一个入侵者之间的争斗。一个个体可以根据它是占有者还是入侵者来选择是鹰还是鸽。因此这是一个
非对称博弈问题，并且共有四种条件对策：鹰/鹰（H/H）；鹰/鸽（H/D）；鸽/鹰（D/H）；鸽/鸽（D/D）。H/H表示当个体无
论是占有者还是入侵者时都是鹰；H/D则表示，当个体是占有者时表现为鹰，是入侵者时表现为鸽；余者类推。表3.2所分析的博弈没有包括
D/H，即反中庸的可能性。赢得矩阵可以表示为表3.6。当V>C时，H/H是唯一的ESS；而当V中庸对策（H/D）的特点是靠尊重所有权决定战斗的胜负；一个可能的例子是Davies（1978）对黄斑眼蝶（Parargeaege
ria）争夺领域的研究。黄斑眼蝶的雄体试图保卫林内地面上的光斑，这将使它获得交配机会。当两个雄蝶在一块光斑上相遇时，它们盘旋飞上林
冠层进行争斗，但光斑占有者总能获胜并回到光斑内。反中庸对策（D/H）在V西哥群居蜘蛛（Oecobiuscivitas）可能提供了一个实例。具有连续对策的多人博弈到目前为止我们只考虑了二人博弈问
题。但在许多情形下，个体之间的斗争不是成对进行的，而是多人集体的争斗。事实上，多人集体博弈可能更普遍。所以，我们有必要对多人博弈问
题进行详细分析。因为多人博弈问题往往表现为连续对策的形式，所以下面的数学分析也将只考虑连续对策的多人博弈。令W(A,B)表示在B-
对策者组成的种群内一个A-对策者的适合度。我们说I是一个ESS，如果对于所有的J?I都满足下列条件
（3.18）其中表示在J占比例为q
，I占比例为（1-q）的种群里J对策者的适合度。条件（3.18）是说，对于弱Nash平衡，即W(J,I)=W(I,I)，一旦J在种
群内占有不可忽视的比例时其适合度必须小于I的适合度。条件（3.18）保证了I-对策者种群不会被任何突变对策所侵蚀。考虑一个非常简
单的对捕食者保持警戒的模型（Parker&Hammerstein1985）。鸟类一起群居觅食；群的大小为n。每个鸟都花一定时
间用于警戒，提防捕食者；其它剩余时间则用于觅食。假设捕食者每天只攻击一次，而且如果当时没有一只鸟正在警戒，每次攻击都捕杀一个个体；
如果至少有一只鸟正处于警戒状态，那么全群所有鸟都会逃脱攻击。警戒的代价是觅食时间减少。我们假定一个把所有时间中v部分用于警戒的个体
，如果它逃过了捕食者攻击，其适合度为1-v2。如果i个体花在警戒上的时间比例为vi，那么每个体受到捕食者攻击的几率为
（3.19）前面的括号项乘在一起就是所有个体都没有警戒，捕食者
能成功的概率；除以n表示平均一个个体受到猎食的概率，因为每次捕食者攻击都只猎杀一个个体。鸟群内第i个体的赢得值可以写为
（3.20）即存
活概率乘以觅食带来的适合度。现在我们可以求出进化稳定的警戒时间。如果v是进化稳定的，那么当种群所有成员都采取v-对策时，任何
突变的对策者，u，都不能侵入该种群。我们知道，突变对策者肯定是和其它n-1个v-对策者组成一个群。所以根据（3.20）式，这时突
变对策者的适合度为
（3.21）根据ESS定义，对任何u?v都必须有；这也就意味着，作为u的函数，应在u=v处达到极大值；或者
（3.22）（3.23）（3.23）式是保证（3.22）式求得的极值是极大值而不是极小值。上面两式合在一起保证了v
是Nash平衡。如果（3.23）式的不等式严格成立，即（3.24）那么v是一个严格的Nash平衡。对于给定
的n值，我们可以容易解出v，并且它满足条件（3.24），因而必然是ESS。可以证明，v随着群的大小增加而减小，即。有两个因素对
出现这种结果有贡献；一是群内每个个体受到捕食者攻击的可能性被“稀释”，即Hamilton（1971）自私的兽群效应（selfish
-herdeffect）；另一个是每个个体都可以从其它个体的警戒行为中得到益处。对于给定的n值，我们可以容易解出v，并且它满
足条件（3.24），因而必然是ESS。可以证明，v随着群的大小增加而减小，即。有两个因素对出现这种结果有贡献；一是群内每个个体受
到捕食者攻击的可能性被“稀释”，即Hamilton（1971）自私的兽群效应（selfish-herdeffect）；另一个是每
个个体都可以从其它个体的警戒行为中得到益处。尽管对于大多数的连续多人博弈的ESS，条件（3.24）都会满足，但也有二阶导数等于
零的情形（参见4.3.1）。这时我们需要判断，当突变对策在种群内占有一定、不能忽视的比例时，这种突变对策能否被自然选择所淘汰。除了
直接地验证外，还有一个稍微较弱的判别方法。对于连续对策模型，我们可以采用一个新的稳定性概念。假设种群对策v稍微地偏离了最佳值v
；如果v种群是稳定的，那么在v种群内出现的突变者（u），当它是朝着v方向变化时将受到正选择；当它是背离v的方向时将受到负选择
（淘汰）。这种类型的稳定性被称为连续稳定性（continuousstability;Eshel1983）。可以证明，v是连
续稳定的如果
（3.25）这个结果可以应用于
任何连续对策模型。例如，上面的警戒模型满足这个条件。但是，我们一般只是在弱Nash平衡时才需要判别连续稳定性，所以上面的条件可以
简化为（3.26）为了证明（3.25），令v=v+?，u=v+?+?，?和?都是无穷小。因此，
当（3.25）式成立时，必须有?和?的正负号不相同，才能有；或者说朝着接近v方向的突变者能够侵入v对策种群。这样Eshel的连
续稳定性结果得证。关于ESS和进化博弈论，本章就介绍到这里；在下一章我们将广泛运用ESS概念分析一些具体的生物学问题。在结束
本章之前，我们再介绍ESS概念在农业领域内的一次成功应用，即作物生长冗余理论（Zhangetal.1999）。考虑干旱条
件下作物植株在根系生长上的资源投入量；用x表示。当种群内所有个体采取的根系生长对策都是x时，每个个体结实的种子量都是
（3.27）其中，f(x)为光合产物量；h为收获指数,即地上生物量中籽粒所占的比例。因为获得的水
分量是生长的限制因子，所以f(x)将随着x的增加而上升；但是这种增加不可能无限下去，最终在达到某一点后增加根系投入不会带来光合产物
的更进一步增加。使籽粒产量最大的根系分配量，x，应满足（图3.1）： 3.28）根据这个结果我们说，高产作物不应该是最
大限度地利用土壤水分，因为一个简单的事实：投入到根系上的生物量不能再被用来进行种子生产。如果通过扩张根系带来的好处不能平衡为此付出
的代价，那么继续增加根系投入显然不可取。现在让我们考察在x-对策者组成的种群内一个突变个体y的命运；它的适合度可以写为：
（3
.29）显然（参见图3.2）突变者的光合产物量满足下式：
(3.30)
不难看出，如果y>x，突变者可以侵入x种群；或者说，产量表现最佳的种群在进化上是不稳定的。所以，高产作物只能通过人为手段来
建立并加以维持。进化稳定的根系分配xe应该满足这样的条件（参见图3.3）
或者（3.31）
图3.2在x-种群内一个突变体的光合产物量与根系投入量的关系；图中用加黑的曲线表示。f(y,x)图3.3xe为ESS所要
求的条件；加黑曲线的含义如左图。进化稳定的根系分配xe应该是作物在没有被人们产量育种有意识改变前所处的状态。现代作物的根系仍
然有可能位于[x，xe]中间的某一点，因为人们并没有充分认识到作物生长与产量之间的微妙关系。Zhangetal.（1999）
把大于x的根系投入称为生长的冗余（growthredundancy）。上面这个模型是以旱农作物为例而发展起来的；同样，对于水肥
条件优越的作物也存在着生长冗余，只不过这时冗余是体现在植物的茎杆上罢了。但是，我们也应该注意，现代作物产量育种仍然没有建立在减少生
长冗余这种认识的基础上。虽然总体上讲农业科学家并未对生长冗余给予足够重视，但对提高产量的关注却可能促使他们选择了减少冗余的品种
；因此根据生长冗余理论我们可以预期：1、现代作物品种的竞争能力低于古老品种；2、旱农区现代品种的根系生长量少于古老品种；实验结果初
步证明了这两个预测（李话、张大勇，1999；张荣等，1999）。进化稳定策略及其应用最优化理论（optimiza
tiontheory）和对策论（gametheory，又称博弈论）是进化生物学中两个最常用的、非常相近的研究途径。它们之间的主
要区别体现在适用范围上：优化理论适用的情形是当一个个体的最优行为不依赖于其它个体的行为时，而对策论则适用于一个个体的最优行为依赖于其它个体如何行动的情形。最优化理论的基本出发点是，自然选择总是倾向于使生物最有效地传递它们的基因，因而也将是最有效地从事各种活动，包括使它们在时间和能量分配方面达到最优状态。但是，最优化理论也遇到了一定困难，即在许多情况下普遍意义上的最佳策略往往并不存在。一个个体采取某一对策是好还是坏不仅取决于这个对策本身，而且往往还取决于种群内其它个体所采取的对策是什么。进化稳定策略的简介进化稳定策略，又称演化稳定策略（ESS)，是evolutionarilystablestrategy的简写，属于行为生态学的范畴。定义：如果任何策略y≠x，存在某个使得不等式对所有的都成立，那么△是一个进化稳定策略。5种对策：1鹰式2鸽式3威吓4报复性威胁5试探性威胁2,21,1H1,11,1LHL每个市民生产1或2单位的产品。然后拿到市场上与另一个市民交易。如果他们他们中的每个只生产1单位，交易不能增加他们的支付。然而如果他们生产2单位，他们将一单位交换一单位，增加消费多样性。在纯策略模型中，有两个纳什均衡：（L,L)和(H,H)1，10，2鸽2，0-3，-3鹰鸽鹰有三个纳什均衡：（鹰，鸽），（鸽，鹰）和一个混合策略纳什均衡（每个参与者以概率1/4选择鹰） ESS要求是对称的纳什均衡，两个纯策略不是。鹰策略的种群比例为p(0

献花(0)

(本文系成为亨特首藏)

类似文章 更多

发表评论：