多重角度解读：贝叶斯推理是怎么工作的

DavidJin1111 2016-11-17

展开全文

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

以下为译文：

贝叶斯推理是怎么工作的

贝叶斯推理是一种从数据中获得更清晰预测的方法，当没有足够多想要的数据时，并想获得这些数据全部的预测强度时，贝叶斯推理是特别有用的。

虽然贝叶斯推理有时候被描述得有些让人敬畏，但它既不是魔法也不神秘。尽管在数学公式上可以获得详细的解释，但其背后的概念是完全可以获得的。总之，贝叶斯推理允许你从数据中通过折叠已经知道的答案来作出更强的结论。

贝叶斯推论是基于

托马斯·贝叶斯的想法，托马斯·贝叶斯是一位不墨守成规的长老会牧师，他写过两本书，一本是关于神学，另外一本是关于概率。他的作品包括现在著名的贝叶斯定理的原始形式，已经被应用到推理、基于教育的猜测技术术语等问题上。贝叶斯思想的流行源自另外一位牧师——理查德·普莱斯。他看到贝叶斯定理的意义后、将其提炼并出版，贝叶斯推理更加准确和历史的叫法是贝叶斯定理贝叶斯-普莱斯规则。

在电影院中应用贝叶斯推理

多重角度解读：贝叶斯推理是怎么工作的

想象下在电影院中有一个影迷丢失了电影票，上图是他们从后面看到的样子，你想获得他们的注意，只知道他们有长头发，但无法区分他们的性别，你会喊出“对不起，夫人”或者“对不起，先生”吗？考虑到你知道你所在区域男女的发型，你可能假设这是一个女人。（这种简化中，只有头发长度和性别两个特征）。

现在考虑这个人在男卫生间排队后情形的变化，有了这个额外的部分信息，你可能会认为这是一个男性。这种使用常识和背景知识是不需要思考就能得到的。贝叶斯推理是在数学上捕获这些常识与背景知识，以致于使得我们可以做出更准确的预测。

多重角度解读：贝叶斯推理是怎么工作的

数字化电影院困境，假设在剧院大约有一半男人一半女人。总共100人，50人是男性，50人是女性。在女性中，一半留长发（25）和一半（25）短发。在男性中，48人有短发和2人有长发。由于有25个长发女性和2个长发男性，因此猜测电影票的持有者为一名女性是的假设是安全的。

多重角度解读：贝叶斯推理是怎么工作的

假设有100人在男卫生间排队，其中是98名男子和陪伴其伴侣的2名女性。刚才的2名女性中长发短发各一人。男性长和短发的比例与之前一样，但是因为他们有98人，即有94名是短发和4名是长发。现在安全的赌注是票证持有者是一名男性。这是基本贝叶斯推理原则的一个具体的例子。事先知道关键的部分信息——电影票所有者在男子厕所外排队使得我们能够更好地预测他们。

要讲清楚有关贝叶斯推理，下面提出四个概念：概率，条件概率，联合概率和边缘概率。

概率

多重角度解读：贝叶斯推理是怎么工作的

一个事件发生的概率可以通过能发生的数量除以可能发生的总数。一个影迷是女性的概率是50名女性/100观众即0.5或50％的概率。这同样适用于男性。

多重角度解读：贝叶斯推理是怎么工作的

男子厕所排队等候的情况分解到0.02的概率为妇女，0.98的概率为男性。

条件概率

多重角度解读：贝叶斯推理是怎么工作的

条件概率回答这个问题：“如果我知道，一个人是名女性，她有长头发的概率是多少？”条件概率的计算方法与概率一样，但他们只是看的所有例子中的一个子集—— 那些符合一定的条件。在这种情况下，P（长发|女性），假设她是个女性，其有长头发的概率是多少，等于女性有长头发的数量除以女性的总数。这会变为0.5，不管我们是否考虑到男卫生间排队或是在整个剧院。

多重角度解读：贝叶斯推理是怎么工作的

根据同样的数学公式，假设他是名男性，其有长头发的条件概率P（长发|男性）是0.96，不管他们是否在排队。

多重角度解读：贝叶斯推理是怎么工作的

关于条件概率，要记住的的一个重要的事情是，P（A | B）与P（B | A）是不一样的。例如，P（可爱|小狗）与P（小狗|可爱）不同。如果我拿着的是一只小狗，它很可爱的概率是非常高的。如果我手里拿的东西是可爱的，是一只小狗的概率中等偏低，因为这也可能是小猫，兔子等。

联合概率

多重角度解读：贝叶斯推理是怎么工作的

联合概率是回答这个问题的“某人是女性且是短发的概率是多少？”发现这是个两步过程。首先，专注于某人是一个女性，P（女）的概率。然后假设她是一名女性，其是短头发的概率P（短发|女）。通过乘法结合这些给定的联合概率，P（女子短发）= P（女）* P（短发|女）。使用这种方法，可以计算一下，我们已经知道的观众中（女人长头发）是0.25，但在男卫生间排队P（女人长头发）为0.01。

多重角度解读：贝叶斯推理是怎么工作的

P（男子留长发）是所有观众之间的0.02，但在男子厕所排队情况下为0.04。

多重角度解读：贝叶斯推理是怎么工作的

与条件概率不同，联合概率不关心顺序。P（A和B）与P（B和A）是相同的，即有牛奶和果冻甜甜圈的概率与有果冻甜甜圈和牛奶的概率是相同的。

边缘概率

多重角度解读：贝叶斯推理是怎么工作的

边缘概率为了回答问题“某人有长头发的概率是多少？”，为了解决这个问题，我们必须把所有不同的方式的概率加起来，长头发男性加上长头发的女性概率。加起来两个联合概率后概率P（长发）为0.27，但在男卫生间排队情况下为0.05。

贝叶斯定理

真正关心的部分是想回答这样的问题：“如果我们知道一个人有长头发，那这个人是女性（或男性）的概率是多少？”这是一个条件概率P（男人|长发），其相反的概率我们已经知道P（长发|男性），但由于条件概率是不可逆的，目前不能知道任何有关新的条件概率的事情。

辛运的是托马斯·贝叶斯注意到

多重角度解读：贝叶斯推理是怎么工作的

记住是如何计算联合概率后，可以写出等式P（男性长头发）和P（长头发和男性）。因为联合概率是可逆的，这两样东西是相等的。

多重角度解读：贝叶斯推理是怎么工作的

使用一点代数知识可以解决所关心的P（男性|长头发）这个问题。

多重角度解读：贝叶斯推理是怎么工作的

用A和B代替“男性”和“长头发”，这样就得到了贝叶斯定理。

多重角度解读：贝叶斯推理是怎么工作的

最后解决电影票困境，必须将贝叶斯定理应用到我们的问题中。

多重角度解读：贝叶斯推理是怎么工作的

首先，需要展开边缘概率P（长发）。

多重角度解读：贝叶斯推理是怎么工作的

然后计算出一个人是男性的概率，假设他们有长头发，对于在男卫生间排队的观众而言，P（男性|长发）为0.8。这证实了电影票的丢失者可能是男性。贝叶斯定理已经占据了我们对形势的直觉。最重要的是它已经结合了我们的预先存在的知识——在男卫生间排队更多的是男性。使用这种先验知识，它更新了关于这种情况的信念。

概率分布

利用贝叶斯推理可以很好的解释像电影院困境这样的例子并显示其活动的机理。然而在数据科学应用上，它最常用来解释数据。通过在测量中提取先验知识，可以利用小数据集得出更强的结论。下面将展示如何工作的细节，但需要明确所说的“概率分布”。

设想下一壶咖啡刚好有足够位置来填充一杯的概率是多少。如果只有一个杯子，那么填补是没有任何问题的，但如果有一个以上的话，你必须决定如何分配这么多杯的咖啡。但是你喜欢的话，你可以把它分解，只要你把所有的咖啡倾倒进一个杯子或其他。在电影院，一个杯子可能代表一个女性，另外代表的是男性。

多重角度解读：贝叶斯推理是怎么工作的

或者，我们可以采用四个杯子来代表性别和头发的长度的所有组合的分布。在这两种情况下，咖啡总量加到一个杯子里。

多重角度解读：贝叶斯推理是怎么工作的

通常情况下，我们设置这些杯子并排在一侧，并把咖啡量看成是一个柱状图。其分布显示了我们对这种情况信服的强度。

多重角度解读：贝叶斯推理是怎么工作的

如果抛一枚硬币并隐藏结果，那么你的信念会被均匀分到头和尾巴之间。

多重角度解读：贝叶斯推理是怎么工作的

如果掷骰子并隐藏结果，那么你对顶部的数字的信念会均匀地分到六个面之间。

多重角度解读：贝叶斯推理是怎么工作的

如果买了强力球才彩票，你认为赢家可能性是几乎接近于零。硬币翻转，投骰子，强力球彩票等结果—— 这些都是测量和收集数据的例子。

多重角度解读：贝叶斯推理是怎么工作的

毫不奇怪的是你还可以对收集的数据保持信念。考虑在美国成年人的高度。你对他们身高的信念看起来像上面的图片。这说明一个信念，即这个人大概是在150和200厘米，180和190厘米的可能性最大。

多重角度解读：贝叶斯推理是怎么工作的

分布可以被分解成更细的等级，你可以看成是将少量咖啡分别倒入更多的杯子去获得更细的信念集。

多重角度解读：贝叶斯推理是怎么工作的

最终，你需要虚杯的数量变得如此之大以致于这个类推被分解。在该点的分布是连续的。修改了下相关的数学知识，但基本思想仍然是有用的。它显示你的信念是如何分配的。

现在用概率分布描述，可以用贝叶斯定理来解释数据。

多重角度解读：贝叶斯推理是怎么工作的

在宠物医院中的贝叶斯推理

由于狗大范围的扭动造成很难得到准确的体重读数，而得到一个准确的读数是很重要的，因为如果体重提升了，必须降低其进食量，反之亦然。

在最后一次称重中，获得了三个测量值，分别为13.9磅、17.5磅和14.1磅，可以计算出其平均值，标准差和标准误差并得到狗的实际体重分布

多重角度解读：贝叶斯推理是怎么工作的

这种分布表明使用此方法对狗体重的信念。它是平均值为15.2磅和标准误差为1.2磅的正态分布。实际测量结果显示为白线。不幸的是这条曲线的宽度是不合适的。而在峰值在15.2磅，概率分布表明，它可以很容易地低至13磅或高达17磅。太宽的范围以致于作出任何一种决定都是自信的。当面对这样的结果时，通常是返回并收集更多的数据，但在某些情况下，这是不可行的或过于昂贵。

通过使用贝叶斯定理，这是使小数据集尽可能的有用。在我们应用它之前，是非常有必要重温下公式，并回顾各种术语。

多重角度解读：贝叶斯推理是怎么工作的

用“w”（重）和“m”（测量）代替“A”和“B”。四个术语中的每个术语代表过程中的不同部分。

现有P（w），表明先验信念。在这种情况下，它表示我们认为对在称重之前狗的重量的信念。

可能性P（m|w）的，表示测量将导致产生特定重量的概率，这也被称为数据的可能性。

后部P（w|m），表示一个给定的权重的概率，考虑到我们所做的测量，这也是我们最感兴趣的内容。

数据的概率P（m），表示任何给定被测量的数据点的概率。现在我们假设这是一个常数。

在这种情况下，假定狗的重量可能是13磅、15磅、1磅或百万磅，让数据说话，假设之前先验是统一的，也就是说其概率分布的所有值是常数。这使得贝叶斯定理简化为P（w|m）= P（m |w）。

多重角度解读：贝叶斯推理是怎么工作的

在这一点上，可以用狗的体重的每一个可能值并计算得到三个测量值的可能性。例如，如果狗的重量是一千磅，那么我们的测量将是极其不可能的。不过，如果其体重实际上是14磅或16磅，测量值是很有可能的。我们可以通过使用每个体重假想值计算得到测量值的可能性，即P（m|w）的。由于先验是统一的，因此也等于后验概率P（w|m）。

虽然使用了贝叶斯定理，但还是没有接近一个有用的估计。为了解决这一问题，假设先验概率为不均匀。先验分布代表了我们在采取任何测量之前对某事的信念。一个统一的先验说明我们相信每一个可能的结果是等可能的，这是很少见的情况。

多重角度解读：贝叶斯推理是怎么工作的

关于狗这种案例，我确实有更多的信息，狗的最后一次体重是14.2磅，虽然胳膊不是一个非常敏感的天平，但是给我的感觉并不觉得明显重或者轻了，因此相信狗的重量约为14.2磅左右，基于这一点，假设为峰值为14.2磅位置，标准偏差为0.5磅的正态分布来表示。

多重角度解读：贝叶斯推理是怎么工作的

现在知道先验知识，可以重复计算后验过程，要做到这一点，我们认为狗的体重是有确切值的可能性，假定为17磅。然后，狗确实是17磅的条件概率并与先验概率相乘，对每个其他可能的重量重复该过程。在这个例子中，在13-15磅的范围内有更多的测量体重，这是与均匀先验相反。

多重角度解读：贝叶斯推理是怎么工作的

通过计算每一个可能的重量概率，产生了新的后验概率。后验分布的峰值也被称为最大后验估计或MAP，在这种的情况下，MAP为14.1磅。这比以前用统一先验知识计算是显著不同的。这也是一个更窄的尖峰，这使我们能够作出更加自信的估计。现在我们可以看到，狗的体重没有太大的改变，其进食量不会改变。

通过整合我们已经知道测量的，我们能够更自信的做出更准确的估计。贝叶斯推理使我们能够很好地利用一个非常小的数据集。我们事先分配17.5磅测量值有一个极低的概率。这几乎与拒绝值一样，但不是基于直觉和常识做的异常检测，贝叶斯定理使我们能够使用数学的方式做这种异常检测。

作为一个侧面说明，假设P（m）是统一的，但如果我们碰巧知道天平在某些方面有偏差，我们可以反映在P（m）中。如果天平仅报偶数或第三次尝试会生成的随机测量，我们可以人工制作P（m）以反映这一点，这会改善我们后验概率的准确性。

避免贝叶斯陷阱

狗的称重例子展示了贝叶斯推理的优点，但也有缺陷。通过对答案进行一些假设会改善我们的估计，但测量事物的整个目的是为了了解该事物。如果我们的假设已经知道了答案，那么可能会审查这些数据。

如果我们开始就设定了一个强大的事先假设，即狗的重量为13和15磅之间，如果体重实际上已经下降到12.5磅，那么将永远无法检测到该值。我们事先将零概率分配到这一结果，不管有多少次测量，每次低于13英镑获得测量将被忽略。

幸运的是，存在一些方法去对冲我们的赌注并避免盲目的估计。这种方法就是至少分配一个小概率给每个结果。如果狗的体重居然重达1000磅，我们收集到的测量结果将能够反映在后验概率中。这也是正态分布通常用作先验分布的一个原因。正态分布大部分集中在小范围成果上，不管他们扩展的有多远，它有很长的尾巴且从来不会完全变为零。

文章原标题《How Bayesian inference work》，作者：Brandon

文章为简译，更为详细的内容，请查看原文：Data Science and Robots Blog