分享

再谈贝叶斯学派与频率学派的区别

 恋上咸鸭蛋 2019-12-24

频率主义(Frequentism)与贝叶斯主义(Bayesianism)的哲学辨异与实践(Python仿真)

从 Beta_Binomial共轭分布开始说起:

Beta(p|α,β) BinomCount(m1,m2)=Beta(p|α m1,β m2)

一个小小的特例为:

Beta(p|1,1) BinomCount(α−1,β−1)=Beta(p|α,β)

Beta(p|1,1)恰好正是均匀分布U[0,1](概率密度恒等于1,且与p无关)
假设有一个不均匀的(或者说均匀与否不可知)的硬币抛出正面的概率为 p,抛 m次后出现正面和反面的次数分别是 m1,m2,那么按传统的频率学派观点,p 的估计值应该为 ˆp=m1m,而如果从贝叶斯的观点来看,开始时对硬币的不均匀性一无所知,所以应该假设 p∼U[0,1],于是有了二项分布的计数 (m1,m2)之后,按照贝叶斯公式如下计算 p的后验分布:

P(p|m1,m2)=P(p)P(m1,m2|p)P(m1,m2)=P(p)P(m1,m2|p)∫10P(m1,m2|t)P(t)dt=1⋅P(m1,m2|p)∫10P(m1,m2|t)⋅1dt=(mm1)pm1(1−p)m2∫10(mm1)tm1(1−t)m2dt=pm1(1−p)m2∫10tm1(1−t)m2dt
计算得到的后验分布正好是 Beta(p|m1 1,m2 1)

文本建模中的频率学派与贝叶斯学派

频率学派:上帝只有一个骰子,这个骰子有 V个面,每个面对应一个词,各个面的概率不一;每抛一次,抛出的面就对应产生一个词,如果一篇文档有 N个词(也即词频),上帝就是独立的抛 n次以产生这 N个词(可见有重复);

词频为 N时,如果我们关注每个词 vi的发生次数 ni,那么→n=(n1,n2,…,nV)恰好是一个多项分布:

p(→n)=Multi(→n|N,→p)=(N→n)V∏k=1pnkk
其中 ∑Vk=1pk=1,∑Vk=1nk=N
此时,一个很重要的任务即是估计模型中的参数 →p=(p1,p2,…,pV),也就是问上帝拥有的这个骰子的各个面的概率分别是多大,按照统计学家中频率派的观点,使用最大似然估计最大化 p(W),于是参数 pi的估计值是:
ˆpi=niN
对于以上模型,贝叶斯统计学派的统计学家会有不同的意见,他们会很挑剔地批评只假设上帝拥有唯一一个固定的骰子(也即 →p=(p1,p2,…,pV))是不合理的。在贝叶斯学派看来,一切参数都是随机变量,也即以上模型中的骰子 →p不是唯一固定的,它是一个随机变量。

贝叶斯学派:上帝有一个装有无穷多骰子的坛子,里面有各式各样的骰子(也即 →p各不相同),每个骰子均有 V个面;上帝从坛子里面抽了一个骰子出来,然后用这个骰子不断地抛,抛 N次。

上帝的这个坛子里面,骰子可以是无穷多个,有些类型的骰子数量多,有些类型的骰子少,所以从概率分布的角度看,坛子里边的骰子 →p服从于概率分布 p(→p),这个分布称为参数 →p的先验分布

以上是贝叶斯学派的游戏规则,此时预料 W的概率如何计算呢?由于我们并不知道上帝到底使用了哪个骰子(→p),所以每个骰子都有可能被使用,只是使用的概率由先验分布 p(→p)来决定。对每一个具体的骰子 \vcp,由该骰子产生的数据的概率是 p(W|→p),所以最终数据产生的概率就是对每一个骰子 →p产生的数据概率进行积分累加求和:

p(W)=∫p(W|→p)p(→p)d→p
在贝叶斯分析的框架下,此处先验分布 p(→p)可以有多种选择,注意到:
p(W|→p)=p(→n|N,→p)=(N→n)V∏k=1pnkk
实际上在计算一个多项分布的概率,所以对先验分布 p(→p) 的一个比较好的选择即是与多项分布成共轭的共轭分布,也即Dirichlet分布:
Dir(→p|→α)=1Δ(→α)V∏k=1pαk−1kΔ(→α)=∫V∏k=1pαk−1kd→p
Δ(→p)是归一化因子;

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多