分享

贝叶斯统计学浅谈

 taotao_2016 2020-07-28

近期看了一些关于MCMC方面的书,其中有一部分是关于贝叶斯统计的。本人对其比较感兴趣,加上最近疫情赋闲在家,便总结了一些贝叶斯统计的内容。

谈到贝叶斯统计,自然少不了大名鼎鼎的贝叶斯定理。设事件A1,A2,...,An为样本空间Ω的一个划分,那么对任意事件B,有以下公式成立:

贝叶斯统计学浅谈

该定理基本上可以视为整个贝叶斯学派的起源了,而且在实际应用中也非常广泛。比如在根据检测结果计算某人患某种病的概率时,贝叶斯定理便可以发挥很大的作用。

贝叶斯定理是由英国的一位牧师托马斯·贝叶斯提出的,不过在当时提出后很长一段时间内都没有受到重视,后来大数学家拉普拉斯让它重新受到科学界的关注,并且逐渐形成了数理统计学中的重要派别——贝叶斯学派。时至今日,该学派影响日益扩大。

接下来笔者将给出该文的核心内容:贝叶斯统计学中的参数估计。设X为一随机变量,其概率密度函数为f(x),θ为基于该随机变量的我们感兴趣的一个参数,那么如何对其进行估计呢?

频率学派是将视为一个固定值,将随机变量X作为总体,从中抽取一定量的样本,构造一个基于此样本的函数(统计学中称之为统计量),然后利用该统计量对θ进行估计。而贝叶斯学派又是怎么做的呢?

与频率学派不同,贝叶斯学派将θ看作一个随机变量,并且先天我们对θ有一定的认知,我们可以根据先天的经验给出一个θ的概率分布,称之为先验分布,而现在所要做的工作就是根据后天采集到的样本对θ的概率分布进行调整,调整后的分布我们称之为后验分布。我们记采集到的样本为X=(x1,x2,...,xn),进而对先验分布和后验分布有如下等式成立:

贝叶斯统计学浅谈

这里,p(θ|X)是我们的后验分布,π(θ)是我们的先验分布,f(X|θ)是关于的条件样本概率密度函数(由于θ是基于随机变量X的一个参数,频率学派中的全概率密度f(x)在这里都变成了条件概率密度f(x|θ)),利用条件概率公式很容易导出该等式,这里不再赘述。

可以说,整个贝叶斯统计学的核心便是这个后验分布,参数估计自然也不例外。而且相比于传统的参数估计只能给出一个估计值外,贝叶斯统计学有更多的估计值可选,譬如期望,中位数,众数等,这些估计值没有具体的好坏之分,需要哪个就用哪个。不过单就期望来说,可以证明在给定样本X=x下,E(θ|X=x)是所有统计量中的最小均方误差估计。证明过程如下:

贝叶斯统计学浅谈
贝叶斯统计学浅谈

下面我们通过一个模拟具体来看后验分布的更新。

假定随机变量满足两点分布Ber(p),p为我们感兴趣的参数,这里我们要先给一个先验分布,由于我们只知道0≤p≤1,不妨假定其为(0,1)区间上的均匀分布。然后我们通过获取的样本量来观察其后验分布的变化。

贝叶斯统计学浅谈
贝叶斯统计学浅谈
贝叶斯统计学浅谈
贝叶斯统计学浅谈

可以看到,随着样本量的增多,后验分布概率密度逐渐在p=0.5附近摆动。这说明随着样本信息的增加,利用后验分布对原始参数进行估计是可行的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多