数学思维的妙处（15）：如何透彻理解贝叶斯公式，本篇给你讲清楚

思明居士 2023-09-04 发布于河北

展开全文

文/老余

数学，是很多人的噩梦。

之所以会这样，并不是你比别人差，最根本的原因是现代教育体系是后工业时代的产物，它的目的不是为了学生方便学习，而是为了方便学校管理、方便老师交差，方便把一茬又一茬的学生批量的、标准化的送到“下一站”：

小学生标准化地送到初中，初中经过凶恶的教导主任的“修枝剪叶”，标准化地送到高中，高中经过地狱般的强化训练送到大学，大学最后标准化的送到社会。

——而社会对人的要求却不是标准化的，然后就是毫无意外的要经受社会的毒打。

回头看，在这条流水线里，学校教的不是数学，而是数学题型。你在这其中能领悟多少数学真正的妙处，完全看你自己的造化，没有人会关心，包括父母、甚至我们自己在内，关心的只是你能做对多少题型。我们甚至都忘记了：

——知识之所以会存在，是因为前人遇到了真实问题的总结。这些知识，是前人解开现实问题的提炼出来的钥匙。

那贝叶斯公式，是为了解决什么问题？

只有明白了这一点，我们才能真正理解贝叶斯思想，而这之后，那些让人头大的数学符号才不至于那么抽象，才会在大脑里鲜活起来，由此公式的推导及如何用之来解决我们自身的问题，将是水到渠成之事。

本篇，就试图把贝叶斯思想及数学公式的来龙去脉给你讲明白。

（一）贝叶斯是要解决什么实际问题？

在贝叶斯出现之前，经典的科学方法是“非黑即白”的。什么是科学？有点科学素养的朋友都知道这个过程：

提出一个理论假设；
验证假设；
如果实验或者观测结果符合理论假设，这个理论就暂时立住了，如果不符合，理论立刻被证伪。

整个科学大厦就是这么建立起来的，你说两个铁球同时落地，那我们就做实验，确实是同时落地，那伽利略的假设就是对的，它不以任何人的意志为转移；你韩国人说发现了超导体，大家复刻你的实验却得不出同样的结果，那你的理论就立马破产。

——科学的世界，就是这么非黑即白，对就是对，错就是错，对了我们就沿用，错了就彻底摒弃，没有中间地带可言。

而贝叶斯觉得，现实世界并不是这样的，虽然科学是为了得出绝对的真理，了解绝对真实的世界，但也许绝对真实的世界根本不可知。

你看在爱因斯坦之前，我们相信宇宙万物都是按照牛顿的经典力学在运动着，但爱因斯坦说并不是这样的，高速运动的物体并不符合牛顿力学，经过验证爱因斯坦是对的，于是我们用相对论取代了经典力学，于是相对论的解释范围更大；后来量子力学出现，说相对论并不能解释微观粒子的运动，于是我们知道相对论也只是”局部“真理。

至今，也没有人能把相对论和量子力学用更高维度的理论统一起来。但谁又能保证，哪个天才即使做到了这一点，我们就能确定那个理论就是终极真理了吗？

也不能！

——或许人类能做到的，只能无限接近绝对真实的世界，而不能真正到达那个终极。

既然科学是动态接近真实，那当一个新证据的出现，虽然并不能直接证实或者证伪一个理论，但这些新证据至少可以让我们调整对一个理论的可信度大小。

这就是贝叶斯的思想。

——贝叶斯把科学决策从非黑即白，变为了黑-灰-白。

在贝叶斯之前，科学界对一个理论的态度，用人话来讲：要么是「绝对的信任」，要么是「绝对的不信」，变成数学语言表示就只有两种：

P（假设的概率）=1（绝对地信）
P（假设的概率）=0（绝对不信）

但有了贝叶斯思想，就会变成这样：

P（假设的概率）=1（绝对地信）
... ...
P（假设的概率）=80%（很相信）
... ...
P（假设的概率）=20%（有一丢丢信）
P（假设的概率）=0（绝对不信）

以上信任程度之所以会发生变化，是因为你掌握的证据发生了变化，所以贝叶斯思想的其核心，就一点：

——观点，要随事实的改变而改变。

有了新的“证据”，我们自然要更新概率值，这有点像福尔摩斯破案，随着掌握张三犯罪证据越来越多，你怀疑张三是杀人真凶的概率就越来越大。

以上是贝叶斯的核心思想，如果没勇气看下面的数学部分，其实也很好，因为你已经收获了一点点哲学。

（二）贝叶斯思想的数学表达，其实很简单

数学定理只不过是数学思想的符号表达，只要粗略知道一点点数学概念，其实就能明白贝叶斯的数学表达式。

前面说了，贝叶斯的核心思想是「观点，要随着新证据的发下而更新」，变成数学里的语言就是：这件事发生的概率，是有条件的，随着条件的变化，那件事发生的概率就会随之变化。这就是：

——条件概率。数学表达就是P（假设|证据），也就是P（A|B），意思是“在B事件发生的前提下，A事件发生的概率”。

那条件概率和贝叶斯公式有什么关系？你看是不是这个道理，为了计算P（A|B），其实我们可以从两方面来思考这个问题：

一方面是从“事件B”出发，先看B发生的概率有多大，也就是P（B），再看在B发生的前提下，A也发生的概率有多大，也就是P（A|B)，那么A、B都发生的概率，用数学表达就是P（A|B)×P（B）；
另一方面，我们从“事件A”出发，先看A发生的概率有多大，也就是P（A），再看在A发生的前提下，B也发生的概率有多大，也就是P（B|A)，那么A、B都发生的概率，用数学表达就是P（B|A)×P（A）。

你看最后的落脚点，都是A、B都发生的概率，所以两者的数学表达必定相等，即：

P（A|B)×P（B）=P（B|A)×P（A）

我们把P（B）移项到右边，即可得贝叶斯公式：

之所以要这么搞，是因为在现实中常常右边的各项都容易得到，而左边的P（A|B)是个逆概率，只能间接得出结论。

这就像一个孩子用石头砸向玻璃，你很容易估计玻璃被打碎的概率，但你现在只看到了玻璃是破的，而要知道它是怎么破的，就非常困难了。

而这，正是贝叶斯要解决的问题。

举个例子，你就更明白了：

现在有一位40多岁的女性去做乳腺癌筛查，检查结果是阳性，请问，这位女性真的得了乳腺癌的概率有多大？

如果我们不了解贝叶斯思想，且对所谓的权威还有所崇拜，那我们对这个诊断结果会非常非常悲观。

但我们用贝叶斯公式稍微计算一下，就会知道「假阳」的可能性非常大。计算如下：

事件A：她得了乳腺癌；
事件B：检测结果呈阳性。

我们要算的就是P（A|B)。

根据贝叶斯公式，我们要计算P（A)、P（B|A)、P（B）：

P（A)：指的是这个年龄段女性得乳腺癌的普遍概率，根据世界卫生组织的数据，是1/700；
P（B|A)：指的是一个女性真的得了乳腺癌，检测结果为阳性的可能性，这个指标由仪器的精准度决定的，为73%（不咋地）；
P（B）：指的是随机拉一个女性，给她做检测为阳性的可能性有多大，这没有直接数据，但我们有可以把人群分为得了P(A)和未得P(A)两种情况。前面说了，这个年龄段得乳腺癌的概率为1/700，那这个年龄段未得乳腺癌的概率P(A)=1-P(A)=699/700，未得误诊为阳性的概率为12%。于是P（B）=P（B|A)×P（A)+P（B|A)×P（A)=12.1%。

把以上数字代入贝叶斯公式，得出P（A|B)=0.86%。也就是说，哪怕这位40多的女性检测为阳性，其实际患乳腺癌的概率也只有这么点。

这与我们的直觉大相径庭。

但这其实也很好理解，这位女性的患病概率是在1/700的普遍概率之下的，还有仪器的不精确性在这里摆着，最后不到1%的概率也就很好理解了。但要是这位女性像朱莉一样，有患癌的遗传基因，那我们一开始选的P(A)就不是1/700了，而是更大的一个数，最后的结果也就不容乐观了。

而这，正是观点要随事实的变化而随时订正。