在聊贝叶斯均衡之前,我们先来介绍一下贝叶斯公式。 首先贝叶斯公式,是为了解决概率问题。 所谓概率,就是一件事情发生的可能性。 这个概念在生活中是很重要的,比如考上研的概率,相亲成功的概率,中彩票的概率,这世界上一切迷人的东西,都带有一定的不确定性。 那我们怎么得到一件事情发生的概率呢? 传统的方法叫频率派。 比如你去买彩票,买了100张,中了1张,这里中奖的频率就是1%。 当然频率并不等同于概率,根据大数定理,当样本无穷大时,频率才无限趋近于概率。 所以如果家里很有钱,我可以一直买彩票,买1万张,最后发现中了98张,推算出中奖的概率大约就是1%。 这样的方法很好理解,也是很科学的,所以用了上百年,一直到现在仍然被广泛运用。 但是这个方法也是有局限性的,我们只有积累了一定数量的样本,才能得到真实的概率,比如扔硬币,有可能扔五次都是正面,难道说明出现正面的概率是100%吗? 在现实生活中,很多事情并没有很多的现成数据,比如一种新发现的病毒(新冠),一种新的商业策略,怎么来判断概率呢?只能靠瞎猜吗? 这就需要贝叶斯学派了。 我们举个例子,比如你认识了一个女孩子,你很喜欢她,但是你不确定她是否喜欢你,不知道是否应该去表白。 如果她喜欢你的概率很高,你就会去表白,如果喜欢的概率不高,那就算了。 按照频率派的观点,我们应该去表白很多次,看看成功几次,才能得到女生喜欢我的概率,但这明显是不现实的。 而贝叶斯学派的观点是,我先估计一个她喜欢我的初始概率,然后每次根据出现的新情况,掌握的新信息,对这个初始概率进行修正,随着信息的增多,我就会慢慢逼近真实的概率。 用公式表达为: 后验概率 = 先验概率 x 修正因子 说白了,就是先根据经验,给出一个判断(先验概率),当有了新情况后,我原来的看法会改变,新情况和自己的预期一致,就强化原来的看法,否则就弱化。 首先我给出一个女生喜欢我的概率,因为自己也不确定,所以我猜是50%左右。 然后有一天,女生遇见我的时候主动打招呼,这件事强化了她喜欢我的概率,喜欢的概率到了60%。 又过了几天,她主动对我笑,这件事进一步强化了她喜欢我的概率,到了70%。 又过了几天,我发现她不仅主动和我打招呼,也主动和其他男生打招呼,喜欢的概率又降到了65%左右。 又过了几天,我约她出去玩,她很开心,并且打扮的很漂亮,喜欢的概率又到了75%左右。 就这样,我慢慢修正她喜欢我的概率,最后的结果无限接近于80%,我感觉问题应该不大,找了一天和她表白了,最后果不其然,我们在一起了。 在了解了基本思想后,我们还是用数学来表达: 其中,P(A)称为'先验概率”,也就是在不知道B事件的前提下,我们对A事件概率的一个主观判断。 对应这个例子就是,在没有什么信息的时候,我主观判断这个女生喜欢我的概率(50%)。 P(B|A)/P(B)称为“修正因子”,也就是新信息B带来的调整,作用是将先验概率调整到更接近真实概率。 如果修正因子P(B|A)/P(B)>1,意味着'先验概率'被增强,事件A的发生的可能性变大; 如果修正因子=1,意味着B事件无助于判断事件A的可能性; 如果修正因子<1,意味着'先验概率'被弱化,事件A的可能性变小。 在这里例子中,女生主动打招呼,对我笑,出去玩打扮的很漂亮,都是修正因子,可以帮助我修正之前的判断。 P(A|B)称为'后验概率”,即在B事件发生之后,我们对A事件概率的重新评估。 在这个例子中,经过很多信息的修正,最后得到的概率是80%,我勇敢向她表白,最后成功了。 贝叶斯公式的意义不言而喻,它完美的解决了频率派需要很多样本的问题,我不用等样本累积到一定程度,先猜一个就行动起来了,因为我可以一直去修正。 很多事情之所以会失败,就是因为我们一直在犹豫,我们不知道这么做到底对不对,一直在思考但久久不敢动手。 但是贝叶斯定理告诉我们,不要再犹豫了,当信息不完备时,大胆假设,快速调整,利用新的信息不断修正原来的预判,我们最后得到的一定是正确的结果。 这贝叶斯公式中,初始概率和修正因子都很重要。 初始概率越准确,我们就能越容易、越快速的得到真实的概率。 而如何获得相对靠谱的初始概率,它需要你的经验、深度思考,这也是我们学习和思考的意义。 除此之外,修正因子也很重要,修正靠的是信息,信息的收集,信息的质量,以及对信息的判断,是提高决策水平的最重要环节。 只要有新信息,就可以修正,哪怕初始判断错了,新信息足够多,也能修正过来。 所以,21世纪是信息的时代,现在最火的就是大数据,只要有了数据,一切都不成问题。 总而言之,贝叶斯公式有着很重要的价值,随着计算机技术的进步 的发展,现在的人工智能、图像识别、机器翻译等,背后无不采用了贝叶斯方法。 值得一提的是,在经济学中有一个理性预期学派,用的就是这个思想,民众会对经济指标有一个自己的预期,然后根据实际情况不断修正自己的预期,那么在长期来看,这个预期和真实的情况一定是相符的。 在了解了贝叶斯公式之后,贝叶斯纳什均衡就很简单了。 我们之前说过,博弈可以分为完全信息博弈和不完全信息博弈。 不完全信息博弈又被称为贝叶斯博弈。 而不完全信息,主要体现在参与人的策略是类型依存的,而参与人不知道别人的类型,因此也不知道别人的策略选择。 参与人通过估计别的参与人类型的概率(称为“先验概率”,意思是在博弈进行之前就获得的有关其他参与人类型的不完全信息),形成自己的“信念”,即在信息不对称下,博弈的一方基于对手行为对其“类型”进行的推测。 并因此预测其他参与人选择的策略,通过计算给定自己选择的策略下获得的平均支付,来决定自己的策略选择。 如果所有参与人都是这样选择自己的策略,给定其他参与人的策略,每一个参与人的策略都是这种意义上的最优策略。我们就称为“贝叶斯纳什均衡”。 举个例子,比如有两个同学,小美和小明,小美学习很好,而小明学习不好,他们两个人都爱上课说话(可能是互相喜欢对方?)。 对于老师来说是信息不对称的,也就是老师并不知道他们两个谁爱说话。 但是老师有一个信念,那就是学习好的同学上课不会主动说话,学习不好的同学经常说话。 因此,一旦他发现这两个人在说话,他会认为是小明主动找小美聊天,所以会处罚小明,而不会处罚小美。 既然是这样,那么小明和小美的最优策略是什么呢? 小明知道,无论是我主动找小美说话,还是她找我说话,最后处罚的都是我,那我还管那么多干嘛,想说话就说话,开心就完了。 而小美会想,我还是别说话了,因为如果哪次老师看见是我主动说话的,那么老师会认为我也爱说话,以后就不会偏袒我了。 这就是贝叶斯均衡,最优策略和信念达到了一致,本来是两个同学都爱讲话,由于老师的信念,导致小明更多的说话,小美更少说话,这一现象又会继续强化老师的信念。 A对B的策略有一个信念,在A执行了策略之后,B观察到A的行动,更新了B的信念。 然后B做出最优反应策略,而B的反应策略本身又恰恰证明了A当初的行动策略也是最优的。 而B采用的这个最优行动策略也恰恰符合了A当初的信念,换句话说,A的信念确实完美的推测了我的行为策略。 这个时候信念和策略都不会单方面做出改变: 1.如果策略变了,意味着如果信念不变,改变策略的人收益会减少。 ⒉如果信念变了,而策略没有变,改变信念的人的收益同样会减少。 |
|
来自: HAINABAICHIAN > 《男人女人》