如何利用贝叶斯定理指导认知更新？

蔚蓝8yvdz1pss8 2022-05-03 发布于内蒙古

展开全文

2018-02-24

最近经常接触到贝叶斯定理，对这个定理的理解渐渐深入，觉得它对人的认知更新有所帮助，故想介绍介绍贝叶斯定理，并写写它和认知更新的联系及其对我们的启发。

贝叶斯定理是什么？

这个定理用简单的文字来表述就是：后验分布取决于先验分布与似然度的乘积。借助数学符号来表达的话是：

后验分布 = 先验分布×似然度

先验分布是没有观察到数据之前的分布，可以简单理解为已由信息做出的假设。

似然度是在假设的条件下得到观察的数据的可能性。

后验分布是利用观察到数据更新后的信息。

通过一个例子来理解这个定理吧。假设我们在某所大学遇到一位男同学小明，我们要想知道小明是数学或者法学专业学生的可能性。根据经验我们假设小明是数学专业学生的可能性是四分之一，也就是说数学专业学生数：法学专业学生数为1:3。这代表了我们的先验分布。然后我们走过去和小明交谈，观察到小明比较内向，现在你觉得小明是数学专业学生的概率是多少呢？根据贝叶斯定理，我们还需要知道似然度，也就是假设小明攻读数学专业或者法学专业的条件下他内向的可能性。这里我们假设数学专业四分之三的学生内向，法学专业四分之一的学生内向。那么似然度为3:1 。因此，后验分布是3: 3，也就是说小明是数学专业学生的可能性是百分之五十。

上面例子中使用的是离散的分布的贝叶斯定理，下面我们看看连续分布情况下该定理的示意图。

用黑线表示的后验分布等于用红线表示的先验分布乘以用蓝线表示的似然度。不难看出，后验分布概率最大值出现在先验分布和似然度都相对较大的位置。先验分布或者似然度概率特别小的位置，其后验分布概率一般也比较小，比如 .2 或者.6 的位置。当然，相同似然度情况下，使用不同先验分布得到的后验分布是很不相同的。如果先验分布最弱（如图a），即我们对某个事物没有任何信息的时候，该事物每种情况可能性一样，那么后验分布与似然度完全一致，也就是说后验分布完全由观察到的数据决定。随着先验分布由若变强(如图a到图c)，我们的后验分布越来越接近先验分布，也就是说先验分布起的作用越来越大，包含新信息的似然度的影响越来越小。从另外一个角度来说，如果先验分布比较弱，那么跟新需要的似然度也不用特别强，也就是说我们需要观察的数据量比较小。

(a)

(b)

（c）

贝叶斯定理与人的认知有什么联系呢？

从例子里面可以看出，我们可以根据新获取的信息：小明同学有点害羞，利用贝叶斯定理来更新我们对小明所在专业的判断。笼统来说，人可以利用新的数据、信息、和知识，不断更新自己对世界的认知。也就是说，人的认知是贝叶斯式的。人的饮食习惯的改变就是一个例子。每个地方饮食的标准和常态不同，一个人到了另一个地方，会慢慢更新对正常饮食的看法。比如，一个从来没见过正常人吃鸡爪的美国人到了中国，发现这里的人很爱吃吃鸡爪，然后慢慢地就习惯了，觉得吃这些很正常。同样的，一个从来只吃全熟牛肉的中国人到了美国，发现这里的人很爱吃带血的牛肉，然后慢慢地也习惯了(尽管可能是被迫适应的)，甚至觉得吃五分熟的牛肉才是正常的。还有一个比较好的例子是国人对女性审美的变化。几十年前最受人欢迎的是鹅蛋脸的女星，比如邓丽君，刘晓庆。后来，随着外国影视作品进入国人视野，大量西方美女那种V字脸慢慢更新了人们对女性的美的认知。因为人们对美女脸型的认知被“平均”了，所以人们觉得中西混血儿最漂亮。然而在西方，特别是很少接触亚洲人的地方，大部分人并不会觉得欧亚混血儿最漂亮，因为他们的审美认知里面并没有亚洲美女。

这种联系对一个人的进步有何启发？

一个人对事物的认知不是百分之百确定的，但是不确定性有高低之分。如果某个人的坚信某个观点，那么该观点的不确定就小，代表这个观点的概率分布就很窄。这种不确定性可以用概率分布来描述。比如，下图中黑色线代表的观点强于蓝色线代表的观点。（可以理解为今晚打麻将你赢钱的可能性）

接下来，我们还可以把一个人的进步看成是能力或者对事物认知分布的更新，那么根据贝叶斯定理，一个较弱的认知分布和强似然函数是更有利于更新的。

强化似然度，“stay hungry”

似然度包含了新数据带来的信息。强化似然有两种途径：一是增加新数据的量，二是增加新数据的质。

增加数据量的道理比较明显。拿英语听力的提升来说就是：多听能够听得懂的，而不是去听那些看字幕才能听清的文章。

数据的质可以通过多去尝试那些先前经验或者认知边缘及边缘外的事物来增加，利用尝试中获得的经验和信息不断自我更新。（想来这也从另外一个角度说明“走出舒适区”对认知以及能力更新的作用）用英语发音的改进来说明的话就是：一直听标准口音的英语学习者的发音很可能不如听过各种口音的人的发音好。

相比于数据的量，数据的质对更新的作用更大。在一个环境下生活工作一段时间后，人们的认知水平或者某些能力的更新会渐渐达到一个稳定状态，可能是因为我们习惯于对这个环境的认识，先验分布变强了，然而获得的信息的质不会发生太多改变，似然度不会有什么大的变化，因此认知或者能力的更新变慢甚至可能是停滞的。还是拿英语学习来说明。我个人觉得到国外学习前半年的时候听力进步比较快，后来就感觉不到明显进步。可能是在英语环境生活一段时间后，各种学习和生活场景下的英文都基本能听懂了，英语输入的质没有太大变化。

如何才能更快的更新呢？答案是 “stay hungry”。以饥饿般的状态，主动获取新数据和新信息。当同一类新数据和新信息达到一定量以后，接着接触另一种新信息，如此循环反复。

弱化先验分布，“stay foolish ”

强调弱化先验分布的原因在于：如果一个先验分布与实际偏差很大，那么需要很多很多观察数据才能把这个观点更新到接近实际情况。强大的先验分布往往狭窄、单一、缺乏弹性，表现在人身上就是固执，固守成见。固守成见不仅会大大减缓更新速度，而且可能导致我们在错误的道路上越走越远。正如马克吐温所说“It ain’t what you don’t know that gets you into trouble. It’s what you know for sure that just ain’t so.” 每个人都带着成见去认识世界，难免有所偏差，所以怀着“空杯”或者“无知”的心态去接触周围的事物才是正途。另外一个方法是保持开放心态，听取反面观点和支撑反面观点的证据。

参考资料：

Introduction to Bayesian Statistics, part 1: The basic concepts, by Chuck Huber

A visual guide to Bayesian thinking, by Julia Galef

P.S.

独乐乐不如众乐乐，从分享中获取快乐。不奢望大家看完本文后觉得贝叶斯定理很有趣，仅希望这些想法对大家有所启发。如果对贝叶斯定理及其与认知的关系的阐述有误，欢迎各位指正。也欢迎对文章的撰写提供反馈，助我'更新'。