分享

「贝叶斯均衡」我是怎么追到一个女生的?

 HAINABAICHIAN 2022-11-17 发布于陕西

在聊贝叶斯均衡之前,我们先来介绍一下贝叶斯公式。

A
频率派和贝叶斯学派

首先贝叶斯公式,是为了解决概率问题。

所谓概率,就是一件事情发生的可能性。

这个概念在生活中是很重要的,比如考上研的概率,相亲成功的概率,中彩票的概率,这世界上一切迷人的东西,都带有一定的不确定性。

那我们怎么得到一件事情发生的概率呢?

传统的方法叫频率派。

比如你去买彩票,买了100张,中了1张,这里中奖的频率就是1%。

当然频率并不等同于概率,根据大数定理,当样本无穷大时,频率才无限趋近于概率。

所以如果家里很有钱,我可以一直买彩票,买1万张,最后发现中了98张,推算出中奖的概率大约就是1%。

图片

这样的方法很好理解,也是很科学的,所以用了上百年,一直到现在仍然被广泛运用。

但是这个方法也是有局限性的,我们只有积累了一定数量的样本,才能得到真实的概率,比如扔硬币,有可能扔五次都是正面,难道说明出现正面的概率是100%吗?

在现实生活中,很多事情并没有很多的现成数据,比如一种新发现的病毒(新冠),一种新的商业策略,怎么来判断概率呢?只能靠瞎猜吗?

这就需要贝叶斯学派了。

B
举个例子

我们举个例子,比如你认识了一个女孩子,你很喜欢她,但是你不确定她是否喜欢你,不知道是否应该去表白。

如果她喜欢你的概率很高,你就会去表白,如果喜欢的概率不高,那就算了。

图片

按照频率派的观点,我们应该去表白很多次,看看成功几次,才能得到女生喜欢我的概率,但这明显是不现实的。

而贝叶斯学派的观点是,我先估计一个她喜欢我的初始概率,然后每次根据出现的新情况,掌握的新信息,对这个初始概率进行修正,随着信息的增多,我就会慢慢逼近真实的概率。

用公式表达为:

后验概率 = 先验概率 x 修正因子

说白了,就是先根据经验,给出一个判断(先验概率),当有了新情况后,我原来的看法会改变,新情况和自己的预期一致,就强化原来的看法,否则就弱化。

图片

首先我给出一个女生喜欢我的概率,因为自己也不确定,所以我猜是50%左右。

然后有一天,女生遇见我的时候主动打招呼,这件事强化了她喜欢我的概率,喜欢的概率到了60%。

又过了几天,她主动对我笑,这件事进一步强化了她喜欢我的概率,到了70%。

又过了几天,我发现她不仅主动和我打招呼,也主动和其他男生打招呼,喜欢的概率又降到了65%左右。

图片

又过了几天,我约她出去玩,她很开心,并且打扮的很漂亮,喜欢的概率又到了75%左右。

就这样,我慢慢修正她喜欢我的概率,最后的结果无限接近于80%,我感觉问题应该不大,找了一天和她表白了,最后果不其然,我们在一起了。

图片

C
贝叶斯公式

在了解了基本思想后,我们还是用数学来表达:

图片

其中,P(A)称为'先验概率”,也就是在不知道B事件的前提下,我们对A事件概率的一个主观判断。

对应这个例子就是,在没有什么信息的时候,我主观判断这个女生喜欢我的概率(50%)。

P(B|A)/P(B)称为“修正因子”,也就是新信息B带来的调整,作用是将先验概率调整到更接近真实概率。

如果修正因子P(B|A)/P(B)>1,意味着'先验概率'被增强,事件A的发生的可能性变大;

如果修正因子=1,意味着B事件无助于判断事件A的可能性;

如果修正因子<1,意味着'先验概率'被弱化,事件A的可能性变小。

在这里例子中,女生主动打招呼,对我笑,出去玩打扮的很漂亮,都是修正因子,可以帮助我修正之前的判断。

P(A|B)称为'后验概率”,即在B事件发生之后,我们对A事件概率的重新评估。

在这个例子中,经过很多信息的修正,最后得到的概率是80%,我勇敢向她表白,最后成功了。

D
有啥子用呢?

贝叶斯公式的意义不言而喻,它完美的解决了频率派需要很多样本的问题,我不用等样本累积到一定程度,先猜一个就行动起来了,因为我可以一直去修正。

很多事情之所以会失败,就是因为我们一直在犹豫,我们不知道这么做到底对不对,一直在思考但久久不敢动手。

但是贝叶斯定理告诉我们,不要再犹豫了,当信息不完备时,大胆假设,快速调整,利用新的信息不断修正原来的预判,我们最后得到的一定是正确的结果。

图片

这贝叶斯公式中,初始概率和修正因子都很重要。

初始概率越准确,我们就能越容易、越快速的得到真实的概率。

而如何获得相对靠谱的初始概率,它需要你的经验、深度思考,这也是我们学习和思考的意义。

除此之外,修正因子也很重要,修正靠的是信息,信息的收集,信息的质量,以及对信息的判断,是提高决策水平的最重要环节。

只要有新信息,就可以修正,哪怕初始判断错了,新信息足够多,也能修正过来。

所以,21世纪是信息的时代,现在最火的就是大数据,只要有了数据,一切都不成问题。

总而言之,贝叶斯公式有着很重要的价值,随着计算机技术的进步 的发展,现在的人工智能、图像识别、机器翻译等,背后无不采用了贝叶斯方法。

值得一提的是,在经济学中有一个理性预期学派,用的就是这个思想,民众会对经济指标有一个自己的预期,然后根据实际情况不断修正自己的预期,那么在长期来看,这个预期和真实的情况一定是相符的。

E
贝叶斯纳什均衡

在了解了贝叶斯公式之后,贝叶斯纳什均衡就很简单了。

我们之前说过,博弈可以分为完全信息博弈和不完全信息博弈。

不完全信息博弈又被称为贝叶斯博弈。

而不完全信息,主要体现在参与人的策略是类型依存的,而参与人不知道别人的类型,因此也不知道别人的策略选择。

参与人通过估计别的参与人类型的概率(称为“先验概率”,意思是在博弈进行之前就获得的有关其他参与人类型的不完全信息),形成自己的“信念”,即在信息不对称下,博弈的一方基于对手行为对其“类型”进行的推测。

并因此预测其他参与人选择的策略,通过计算给定自己选择的策略下获得的平均支付,来决定自己的策略选择。

如果所有参与人都是这样选择自己的策略,给定其他参与人的策略,每一个参与人的策略都是这种意义上的最优策略。我们就称为“贝叶斯纳什均衡”。

举个例子,比如有两个同学,小美和小明,小美学习很好,而小明学习不好,他们两个人都爱上课说话(可能是互相喜欢对方?)。

对于老师来说是信息不对称的,也就是老师并不知道他们两个谁爱说话。

但是老师有一个信念,那就是学习好的同学上课不会主动说话,学习不好的同学经常说话。

因此,一旦他发现这两个人在说话,他会认为是小明主动找小美聊天,所以会处罚小明,而不会处罚小美。

既然是这样,那么小明和小美的最优策略是什么呢?

小明知道,无论是我主动找小美说话,还是她找我说话,最后处罚的都是我,那我还管那么多干嘛,想说话就说话,开心就完了。

而小美会想,我还是别说话了,因为如果哪次老师看见是我主动说话的,那么老师会认为我也爱说话,以后就不会偏袒我了。

图片

这就是贝叶斯均衡,最优策略和信念达到了一致,本来是两个同学都爱讲话,由于老师的信念,导致小明更多的说话,小美更少说话,这一现象又会继续强化老师的信念。

A对B的策略有一个信念,在A执行了策略之后,B观察到A的行动,更新了B的信念。

然后B做出最优反应策略,而B的反应策略本身又恰恰证明了A当初的行动策略也是最优的。

而B采用的这个最优行动策略也恰恰符合了A当初的信念,换句话说,A的信念确实完美的推测了我的行为策略。

这个时候信念和策略都不会单方面做出改变:

1.如果策略变了,意味着如果信念不变,改变策略的人收益会减少。

⒉如果信念变了,而策略没有变,改变信念的人的收益同样会减少。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多