分享

一文通俗易懂讲解伯努利分布、几何分布、超几何分布、二项分布、泊松分布...

 taotao_2016 2023-03-06 发布于辽宁
  • 1. 两大类分布的总体概述

  • 2. 什么是期望?

  • 3. 离散概率分布

    • 3.1 伯努利分布

    • 3.2二项分布,多项式分布

    • 3.3几何分布和负二项分布

    • 3.4 超几何分布

    • 3.5 泊松分布

  • 4. 连续概率分布

    • 4.1 均匀分布

    • 4.2正态分布

    • 4.3 Beta分布

    • 4.4 卡方分布

  • 5. 补充

1. 两大类分布的总体概述

概率分布是指用于表述随机变量取值的概率规律,总体包括离散概率分布连续概率分布

离散概率分布包括:

  1. 伯努利分布,又称为 “0-1 分布” 或 “两点分布”;
  2. 二项分布,多项式分布(二项式分布的延伸);
  3. 几何分布和负二项分布
  4. 超几何分布
  5. 泊松分布

连续概率分布包括:

  1. 均匀分布
  2. 正态分布(常态分布,高斯分布)
  3. Beta-分布
  4. 卡方分布

2. 什么是期望?

在了解这些分布之前,需要先理解一个名词——期望。

期望和均值类似,就连计算方法也类似,但是均值是对数据本身进行描述,但期望描述的是概率分布。

所以,变量X的期望通常写作E(X),E(X)的计算公式为:

3. 离散概率分布

3.1 伯努利分布

是假设一个事件只有发生或者不发生两种可能,这两种可能是相互独立却对立,并且这两种可能是固定不变的。那么,如果假设它发生的概率是p,那么它不发生的概率就是1-p。这就是伯努利分布。

伯努利实验就是做一次服从伯努利概率分布的事件,它发生的可能性是p,不发生的可能性是q(1-p)。

举例:抛一次硬币,正反面各自的概率。

公式:

其中,x代表随机变量可能的结果,即正反面或者实验的阳性阴性结果。

期望:

方差:

3.2二项分布,多项式分布

3.2.1二项分布

二项分布是多次伯努利分布实验的概率分布。

其条件为:

  1. 独立试验;
  2. 每次试验都存在成功和失败的可能,每一次试验的成功概率相同;
  3. 试验次数有限(注意这个条件)

举例: 为了区分概率,不再以硬币举例,这次以答题正确概率为例,随机答题正确性为1/4,即答对可能性为0.25,计算3道题目答对1题的概率为:3 x 0.25^1^ x 0.75^2^

公式为:

, 其中 (也就是组合的公式)

p是每一次试验的成功概率,n是试验次数,又写作:

根据n与p的不同数值,二项分布的概率分布形状会发生变化,p越接近0.5,图形越对称,p<0.5,图形右偏,p>0.5,图形左偏。图形可见:二项分布概率直方图

二项分布单次试验的期望为 , 方差为

重复n次试验的期望为 , 方差为

3.2.2多项式分布

多项分布是在二项分布的基础上进一步的拓展。

也就是由计算只有两种结果变成计算两种以上结果的概率分布,

公式,

另一种形式(emmm真优雅):

3.3几何分布和负二项分布

几何分布和负二项分布与二项分布恰恰相反,求的是在结果发生概率和发生次数已知的情况下,达成这一条件所需的事件总数的概率。

3.3.1几何分布

几何分布和二项分布极为相像,继续以随机答题为例,假定我们有一套题,在答对第一道题前要答多少题?这里的求解概率分布就是一种几何分布。

其条件为:

  1. 独立试验;
  2. 每次试验都存在成功和失败的可能,每一次试验的成功概率相同;
  3. 为了取得第一次成功前需要进行多少次试验?

每道题目答对概率都为0.25(p),答错概率都为0.75(q),则当第4题才答对第一道题就为:0.25 x 0.75^3^

则,公式为:

其中,p为成功概率,q=1-p 为失败概率,为了在第r次试验时取得成功,首先要失败(r-1)次。

期望为 ,  公式推导见几何分布的期望公式的推导

方差为

3.3.2负二项分布

与几何分布相比较,负二项分布多出了一个结果发生次数的参数。

继续以答题为例,答对3道题需要做题多少?

公式:

其中,

p为答对概率,k为所要成功(答对)次数,因为第r个失败是最后发生的,所以需要k+r-1次重复实验中有k次成功的。

期望为

3.4 超几何分布

从a个白球和b个黑球中抽取n个球,那么以X表示抽取出的白球的数目,这个求解概率则为超几何分布

其条件为:

不放回抽样

公式为:

3.5 泊松分布

泊松分布的本质还是二项分布,泊松分布只是用来简化二项分布计算的。

一个简单例子,每天下雨概率是12%,上个月下了5次雨,下个月下雨8次概率是多大?这个求解概率情况即为泊松分布。

泊松分布应用条件:

  1. 单独事情在给定区间(时间或者空间)内随机、独立发生;
  2. 已知该区间平均发生次数(发生率),且为有限数值(通常以λ表示)。

若X符合泊松分布,且每个区间内平均发生λ次,则为

X~ P~o~(λ)

发生r次事件的概率公式为:

其中,r为给定区间发生目的事件次数,e为数学常数2.718。

举例和公式推导,网上有个例子解释得很好,见用一个”栗子“讲清楚泊松分布

因为X~ P~o~(λ),则E(X)为给定区间内能够期望的事件发生数目,也就是求解区间内发生的平均发生次数,则期望,即E(X)等于λ,方差也为λ(泊松分布的参数本身就是期望和方差)

泊松分布的概率形状为:λ小,则分布向右偏斜,随着λ变大,分布逐渐变得对称(为什么会这样?参考见如何深刻理解二项式分布到泊松分布

另外,泊松分布在特定条件下可以用来近似代替二项分布。

已知,二项分布公式为:

当n过大时,计算变得繁琐,而又知道重复n次试验的期望为 , 方差为

所以当λ≈np,λ≈npq ,即np≈npq时候,也就是q近似为1且n足够大时,我们可以用泊松分布替代二项分布,则条件为

  1. n次数足够大,默认>50;
  2. p足够小,默认<0.1;

4. 连续概率分布

4.1 均匀分布

相等区间(时间,空间,长度等等)分布概率相等,较为简单不予过多描述

均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b) 密度函数公式为:

期望,

方差为

4.2正态分布

若随机连续变量X符合期望为μ、标准差为σ的正态分布,则通常写作X~N(μ, σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

其公式为

这个公式第一眼有点繁琐,但其实当进行拆分后并不复杂,推导之前先了解一个公式标准分计算,

其中,μ表示均值,σ为标准差,Z值为某个值x偏离均数μ的标准差倍数。

公式中前半部分 只是一个系数,为固定值,而后半部分 可以简化为,当Z为0时,最大,也最大,而当x=μ也就是均值时,整个密度函数达到最大值,而当x越偏离μ时,密度函数越小,当无限远的时候,就趋近于0。现在看前半部分, 由于π固定,值的变化由σ标准差决定,sigma越大,值越小,整个分布越会呈低矮形状。

期望与方差计算为:

4.3 Beta分布

以下参考自,链接

一个袋子里面有很多球,我们不知道球的个数只知道球的颜色(红,白),我们现在从中取出一个球(二次实验),根据先验经验我们猜测红白概率为(0.5,0.5),服从两点分布。那么我们开始有放回地从中抽取100次(多次二项试验),得到红球为70次,黄球为30次,这时候我们又重新猜测红白概率(0.7,0.3)。那么如果我们再将上面试验做150次,即重复150次的多次二次实验,最后得到红白概率为{0.7,0.3}这样概率为多少?这就是Beta分布。

公式为

$$f(x \mid a, b)=\frac{1}{B(a, b)} x^{a-1}(1-x)^{b-1}, 0<x<1(a, b='' data-tool='mdnice编辑器'>0) $$

期望与方差计算:

4.4 卡方分布

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其卡方分布规律称为x^2,分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个x2正态分布一样,自由度不同就是另一个分布。记为 Q~x^2(k). 卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,X^2分布近似为正态分布。对于任意正整数k, 自由度为 k的卡方分布是一个随机变量X的机率分布。

其公式为:

期望与方差计算为:

5. 补充

二项分布和几何分布的区别是什么?各自应该在什么时候用?

二项分布和几何分布的应用条件很类似,两者的前两个条件(①独立试验;②每一次试验的成功概率相同),差别在于实际上要求的结果。如果试验次数固定,求成功一定次数的概率,则需要使用二项分布;使用二项分布还可以求出在n次试验中能够期望得到的成功次数。如果要求第一次成功之前需要试验多少次,则需要使用几何分布。

  1. 首次成功时的实验 n 次的概率 -- 几何分布
  2. N 次实验中的成功 S 次的概率 -- 二项分布

参考链接:

伯努利分布、二项分布以及多项分布

https://zhuanlan.zhihu.com/p/50462601

https://blog.csdn.net/qq_37960402/article/details/88953500

https://www.cnblogs.com/Renyi-Fan/p/13909553.html

https://zhuanlan.zhihu.com/p/24711669

https://blog.csdn.net/zlbflying/article/details/47777943

https://zhidao.baidu.com/question/431881117.html

书籍:统计学的世界

书籍:深入浅出统计学

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多