分享

数学思维的妙处(15):如何透彻理解贝叶斯公式,本篇给你讲清楚

 思明居士 2023-09-04 发布于河北

文/老余

数学,是很多人的噩梦。

之所以会这样,并不是你比别人差,最根本的原因是现代教育体系是后工业时代的产物,它的目的不是为了学生方便学习,而是为了方便学校管理、方便老师交差,方便把一茬又一茬的学生批量的、标准化的送到“下一站”:

小学生标准化地送到初中,初中经过凶恶的教导主任的“修枝剪叶”,标准化地送到高中,高中经过地狱般的强化训练送到大学,大学最后标准化的送到社会。

——而社会对人的要求却不是标准化的,然后就是毫无意外的要经受社会的毒打。

回头看,在这条流水线里,学校教的不是数学,而是数学题型。你在这其中能领悟多少数学真正的妙处,完全看你自己的造化,没有人会关心,包括父母、甚至我们自己在内,关心的只是你能做对多少题型。我们甚至都忘记了:

——知识之所以会存在,是因为前人遇到了真实问题的总结。这些知识,是前人解开现实问题的提炼出来的钥匙。

那贝叶斯公式,是为了解决什么问题?

只有明白了这一点,我们才能真正理解贝叶斯思想,而这之后,那些让人头大的数学符号才不至于那么抽象,才会在大脑里鲜活起来,由此公式的推导及如何用之来解决我们自身的问题,将是水到渠成之事。

本篇,就试图把贝叶斯思想及数学公式的来龙去脉给你讲明白。

数学思维的妙处(15):如何透彻理解贝叶斯公式,本篇给你讲清楚

(一)贝叶斯是要解决什么实际问题?

在贝叶斯出现之前,经典的科学方法是“非黑即白”的。什么是科学?有点科学素养的朋友都知道这个过程:

  1. 提出一个理论假设;
  2. 验证假设;
  3. 如果实验或者观测结果符合理论假设,这个理论就暂时立住了,如果不符合,理论立刻被证伪。

整个科学大厦就是这么建立起来的,你说两个铁球同时落地,那我们就做实验,确实是同时落地,那伽利略的假设就是对的,它不以任何人的意志为转移;你韩国人说发现了超导体,大家复刻你的实验却得不出同样的结果,那你的理论就立马破产。

——科学的世界,就是这么非黑即白,对就是对,错就是错,对了我们就沿用,错了就彻底摒弃,没有中间地带可言。

而贝叶斯觉得,现实世界并不是这样的,虽然科学是为了得出绝对的真理,了解绝对真实的世界,但也许绝对真实的世界根本不可知。

你看在爱因斯坦之前,我们相信宇宙万物都是按照牛顿的经典力学在运动着,但爱因斯坦说并不是这样的,高速运动的物体并不符合牛顿力学,经过验证爱因斯坦是对的,于是我们用相对论取代了经典力学,于是相对论的解释范围更大;后来量子力学出现,说相对论并不能解释微观粒子的运动,于是我们知道相对论也只是”局部“真理。

至今,也没有人能把相对论和量子力学用更高维度的理论统一起来。但谁又能保证,哪个天才即使做到了这一点,我们就能确定那个理论就是终极真理了吗?

也不能!

——或许人类能做到的,只能无限接近绝对真实的世界,而不能真正到达那个终极。

既然科学是动态接近真实,那当一个新证据的出现,虽然并不能直接证实或者证伪一个理论,但这些新证据至少可以让我们调整对一个理论的可信度大小。

这就是贝叶斯的思想。

——贝叶斯把科学决策从非黑即白,变为了黑-灰-白。

在贝叶斯之前,科学界对一个理论的态度,用人话来讲:要么是「绝对的信任」,要么是「绝对的不信」,变成数学语言表示就只有两种:

  • P(假设的概率)=1(绝对地信)
  • P(假设的概率)=0(绝对不信)

但有了贝叶斯思想,就会变成这样:

  • P(假设的概率)=1(绝对地信)
  • ... ...
  • P(假设的概率)=80%(很相信)
  • ... ...
  • P(假设的概率)=20%(有一丢丢信)
  • P(假设的概率)=0(绝对不信)

以上信任程度之所以会发生变化,是因为你掌握的证据发生了变化,所以贝叶斯思想的其核心,就一点:

——观点,要随事实的改变而改变。

有了新的“证据”,我们自然要更新概率值,这有点像福尔摩斯破案,随着掌握张三犯罪证据越来越多,你怀疑张三是杀人真凶的概率就越来越大。

以上是贝叶斯的核心思想,如果没勇气看下面的数学部分,其实也很好,因为你已经收获了一点点哲学。

数学思维的妙处(15):如何透彻理解贝叶斯公式,本篇给你讲清楚

(二)贝叶斯思想的数学表达,其实很简单

数学定理只不过是数学思想的符号表达,只要粗略知道一点点数学概念,其实就能明白贝叶斯的数学表达式。

前面说了,贝叶斯的核心思想是「观点,要随着新证据的发下而更新」,变成数学里的语言就是:这件事发生的概率,是有条件的,随着条件的变化,那件事发生的概率就会随之变化。这就是:

——条件概率。数学表达就是P(假设|证据),也就是P(A|B),意思是“在B事件发生的前提下,A事件发生的概率”。

那条件概率和贝叶斯公式有什么关系?你看是不是这个道理,为了计算P(A|B),其实我们可以从两方面来思考这个问题:

  1. 一方面是从“事件B”出发,先看B发生的概率有多大,也就是P(B),再看在B发生的前提下,A也发生的概率有多大,也就是P(A|B),那么A、B都发生的概率,用数学表达就是P(A|B)×P(B);
  2. 另一方面,我们从“事件A”出发,先看A发生的概率有多大,也就是P(A),再看在A发生的前提下,B也发生的概率有多大,也就是P(B|A),那么A、B都发生的概率,用数学表达就是P(B|A)×P(A)。

你看最后的落脚点,都是A、B都发生的概率,所以两者的数学表达必定相等,即:

P(A|B)×P(B)=P(B|A)×P(A)

我们把P(B)移项到右边,即可得贝叶斯公式:

数学思维的妙处(15):如何透彻理解贝叶斯公式,本篇给你讲清楚

之所以要这么搞,是因为在现实中常常右边的各项都容易得到,而左边的P(A|B)是个逆概率,只能间接得出结论。

这就像一个孩子用石头砸向玻璃,你很容易估计玻璃被打碎的概率,但你现在只看到了玻璃是破的,而要知道它是怎么破的,就非常困难了。

而这,正是贝叶斯要解决的问题。

举个例子,你就更明白了:

现在有一位40多岁的女性去做乳腺癌筛查,检查结果是阳性,请问,这位女性真的得了乳腺癌的概率有多大?

如果我们不了解贝叶斯思想,且对所谓的权威还有所崇拜,那我们对这个诊断结果会非常非常悲观。

但我们用贝叶斯公式稍微计算一下,就会知道「假阳」的可能性非常大。计算如下:

  • 事件A:她得了乳腺癌;
  • 事件B:检测结果呈阳性。

我们要算的就是P(A|B)。

根据贝叶斯公式,我们要计算P(A)、P(B|A)、P(B):

  • P(A):指的是这个年龄段女性得乳腺癌的普遍概率,根据世界卫生组织的数据,是1/700;
  • P(B|A):指的是一个女性真的得了乳腺癌,检测结果为阳性的可能性,这个指标由仪器的精准度决定的,为73%(不咋地);
  • P(B):指的是随机拉一个女性,给她做检测为阳性的可能性有多大,这没有直接数据,但我们有可以把人群分为得了P(A)和未得P(A)两种情况。前面说了,这个年龄段得乳腺癌的概率为1/700,那这个年龄段未得乳腺癌的概率P(A)=1-P(A)=699/700,未得误诊为阳性的概率为12%。于是P(B)=P(B|A)×P(A)+P(B|A)×P(A)=12.1%。

把以上数字代入贝叶斯公式,得出P(A|B)=0.86%。也就是说,哪怕这位40多的女性检测为阳性,其实际患乳腺癌的概率也只有这么点。

这与我们的直觉大相径庭。

但这其实也很好理解,这位女性的患病概率是在1/700的普遍概率之下的,还有仪器的不精确性在这里摆着,最后不到1%的概率也就很好理解了。但要是这位女性像朱莉一样,有患癌的遗传基因,那我们一开始选的P(A)就不是1/700了,而是更大的一个数,最后的结果也就不容乐观了。

而这,正是观点要随事实的变化而随时订正。

数学思维的妙处(15):如何透彻理解贝叶斯公式,本篇给你讲清楚

(三)结语

虽然这个理论在各个领域已经有了大量的应用,并取得了很好的成果(如贝叶斯网络),但实话实说,每个人的境遇和想法都不一样,即使面对同一个事实,得出的结论也会大相径庭,也就是最初的P(A)会因人而异,所以贝叶斯方法的本质并不是客观的。

这也是很多传统的统计学家诟病贝叶斯的根本原因,人们总觉得科学就应该是完全客观的才是对的。

但在人类的世界里,真的有完全客观存在吗?

我们看到的红橙黄绿蓝靛紫,只不过是白光的各个波段而已。现在有脑科学家正在怀疑,即使是我们为之自豪的自由意志,也可能只是一个幻觉。

所以,我们不要那么执拗的去争辩什么客观主观,对一个事物不要再说什么坚定不移的相信,也不要听风就是雨的一股脑接受,我们要做的就是保持开放,多了一个新证据,我们就多一份相应的相信,用一个量化过的数值来决定自己的判断。

“80%的相信”这样的话,虽然看起来很怪,但你离科学决策又近了一步。

(完)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多