分享

五分钟概率论-Beta 分布

 Wdjljjfj 2017-10-02

Beta分布是一种非常接近直觉的分布,这篇文章主要介绍Beta分布和说明为什么我们需要Beta分布。

对于贝叶斯主义者,从贝叶斯的角度去看伯努利过程,会得到一些重要而且有意思的结果。

数学公式说明,需要在段中显示数学公式,用的是标准Latex语法,_表示角标,{}表示整体

缩写说明,pdf:函数密度函数

文章结构

  • 伯努利过程

  • 第一个抛硬币试验

  • Beta分布形状

  • 贝叶斯推断

  • 第二个抛硬币试验

  • 淘宝商家例子

伯努利过程

伯努利过程是一系列离散的独立同分布随机试验,当我们具体看伯努利过程的一些分布函数的时候,会发现这一类分布有着相似的结构。

二项分布(抛n次硬币,正面出现k次的概率)

五分钟概率论-Beta 分布

几何分布(抛硬币,第一次抛出正面所需次数的概率)

五分钟概率论-Beta 分布

帕斯卡分布(抛硬币,第k次出现正面所需次数的概率)

五分钟概率论-Beta 分布

找到一个统一的公式去描述这些分布,那就是 Beta分布了:

五分钟概率论-Beta 分布

其中 B(a,b) 是标准化函数,他的作用是使总概率为1,a 和 b 是形状参数,不同的参数选择不但可以表示常见的二项分布,几何分布等,它更有一个好处,那就是你跟本不用去管某个试验服从什么分布。用形状参数 a,b 可以调出任意你想使用的分布图像。

抛个硬币吧

写概率论的文章总是一言不合就抛硬币,这就像是达芬奇画鸡蛋,基础的掌握也是思维的形成。抛硬币的试验可以从几何学角度来直观了解Beta分布的工作原理。先撇开Beta分布,来看下简单的变体,没有了-1的次方项,也没有了用于归一化的常数。

五分钟概率论-Beta 分布

如果抛硬币,抛出7次正面,3次反面,如何判断这个硬币的概率分布。注意我们都是贝叶斯主义者,硬币的概率是个随机变量,不要用频率主义去把概率当作一个定值。思考最简单的伯努利过程,7次正面,3次反面,概率分布是关于x的函数(随机变量),那么这个类似 Beta分布的函数就是:

五分钟概率论-Beta 分布

五分钟概率论-Beta 分布

这幅图是很直观的表达,当某次试验出现正面7次,背面3次的情况下,函数图像在0.7附近得到最大值。也就是说,现在的概率极有可能是0.7,当然也有可能是其他的情况,比如说0.5,只是概率更小罢了。这就是我们不知道服从某种特定分布的参数分布曲线。

更笼统的说,形状参数 a,b 决定了分布的形状。

Beta 分布形状

当形状参数a,b 取不同的值时,Beta分布会随之变化。其中有几种特殊情况。

五分钟概率论-Beta 分布

首先是 a = b 的情况。分别使用动画和3D来演示。

五分钟概率论-Beta 分布

当 a = b 时, beta分布都是对称的,如果小于1,分布是u形,这时的pdf也叫做反正弦分布(arcsin distribution),反正弦分布的CDF是反正弦函数。如果形状参数大于1,分布呈山峰状凸起,特别注意,当 a = b = 1 时,分布为[0,1]均匀分布。当 a = b = 2 时,pdf为抛物线。

五分钟概率论-Beta 分布

3D 图像显示了a取不同值时,概率密度函数分布的变化。

当 a 不等于 b 时, Beta 概率密度函数呈较大值一方倾斜,a 越大,pdf峰值向1偏移,b 越大,pdf峰值向0偏移。

五分钟概率论-Beta 分布

可以看到Beta分布的另一个特点,当形状参数越大时,分布图像越陡,越对称,越接近正态分布。

贝叶斯推断 (Bayesian inference)

Beta分布在概率统计中非常好用。因为在贝叶斯推断下,Beta分布有个非常棒的特点。那么先来看看贝叶斯推断。

在统计模型中,我们往往关心的是模型的参数,比如说抛出硬币的正面概率是多少,一个射击运动员平均射击环数。在贝叶斯主义看来,这些参数并不是一个明确的数,而是一个概率分布,在某些地方值大一些,就说明参数更有可能分布在这些地方。这个参数,被定义为随机变量 Theta。

随机变量 Theta 中某一个值 theta 可能就是模型的真值,在这个真值下,我们有做了一些观察,即

五分钟概率论-Beta 分布

同理这些观察也都是随机变量,更进一步,他们是在某参数下的条件概率,也即联合分布。 可以表示为 p_{X|\Theta} 或者 f_{X|\Theta}。现在有了参数的分布 p_{\Theta} 或者 f_{\Theta}, 也有了观察量,根据条件概率公式,我们就得到了贝叶斯角度的贝叶斯推断:

五分钟概率论-Beta 分布

这里只给出了离散模型,各部分都可替换成各自的连续模型。等式右边的部分我们都有了,分母部分是用来归一化的,p_{\Theta} 也被称作先验概率,p_{X|\Theta}也是似然函数,等式左边的部分即为在先验存在下,通过一些观察,更新的参数分布概率,也被称作后验概率。

既然提到贝叶斯,可不是让他白来的,Beta 分布的一些特性,让贝叶斯推断发挥出了巨大作用。

共轭先验 Conjugate prior

暂时先回到抛硬币的例子中,如果观察到了某次试验结果k,选择使用Beta分布,不考虑分母常数,也不进行精确计算:

五分钟概率论-Beta 分布

根据前面所讲,我们不论假设先验分布是均匀分布,二项分布,几何分布还是其他伯努利过程中的分布情况,后验概率都可以得到一个统一的形式:

五分钟概率论-Beta 分布

其中 B(a,b) 是 Beta 函数,发现新的Beta分布,新的 a = a+k,新的 b = n-k+b,当 a = b = 1 时,形状参数为k+1和n-k+1,如果我们认为 a 是抛出正面的次数,b 是抛出反面的次数,这不就是我们抛硬币的例子的Beta分布吗?这种特性就是共轭先验。有着这种特性的函数并不多,另一个有共轭先验特性的分布就是正态分布。

后验分布与先验分布是同种类型的分布。这又什么用呢?

首先,可以迭代了。先验分布通过新的观察结果可以更新后验分布,新的后验分布又可以做为先验分布进行下一次的更新。

其次,给贝叶斯推断提供了理论依据,为什么可以用Beta分布做为观察模型的先验分布,每次观察试验不会改变分布模型,改变的只是分布形状。

归根结底,共轭先验让计算变简单了。Beta分布的众数,期望和方差分别为:

五分钟概率论-Beta 分布

免去了计算指数,阶乘的复杂运算,只用形状参数就足够了,是不是很方便呢?

又要抛硬币了

这次抛硬币是对开始那个例子的完善。我们说观察一枚硬币,观察前有人告诉我以前有人抛过这枚硬币,出现了7次正面,3次反面。我们估计这个硬币是服从Beta分布的,即 X~Beta(8,4),开始观察5次抛掷结果以后,发现出现了2次正面,3次反面,那我们可以直接计算了:

五分钟概率论-Beta 分布

在新的观察下,概率分布的峰值从0.7移动向0.6。从整个计算过程中,有没有发现,我们根本不用去考虑以前的结果,只要在先验的基础上变更形状参数就行了。

五分钟概率论-Beta 分布

一个更加实际的例子

逛淘宝的时候,想买一双鞋子,同一双鞋子发现了两个不同的商家,商家A有10条评论,9个好评1个差评。商家B有500条评论,400条好评100个差评。那么应该去买哪个商家的鞋子。

鞋子的质量是商家的参数,商家一定存在反应鞋子质量的真值,但是我们不知道。但是,根据大数定理,大量的样本会让结果更趋近于真值。商家A可以使用 a = 10,b = 2 的Beta分布,商家B可以使用 a = 401, b = 101 的Beta分布,商家的质量在[0,1]内表示。得到结果:

五分钟概率论-Beta 分布

取一个95%的置信区间,也就是说,真值有95%的概率在这个区间内。商家A[0.58,0.98],商家B[0.76,0.84]。商家A的均值更高,但是方差更大。这里就有两个不同的策略,如果考虑的是产品质量的稳定性,就选择B商家,因为商家B的质量标准底线比商家A更高。另一方面,如果你愿意看脸,商家A的商品有很大机率高达0.98的质量标准。

这就是Beta分布在生活中直观的表现。Beta分布的应用不止于此,当其进化为更加抽象的狄利克雷分布时,就是无监督贝叶斯模型的基础了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多