概率分布(德语:Wahrscheinlichkeitsverteilung,英语:probability distribution)或简称分布,是概率论的一个概念。使用时可以有以下两种含义: 广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量X和Y具有同样的分布(或同分布)时,我们是无法用概率来区别他们的。换言之: 但是,不能认为同分布的随机变量是相同的随机变量。 狭义地,它是指随机变量的概率分布函数。设X是样本空间上的随机变量,为概率测度,则称如下定义的函数是X的分布函数,或称累积分布函数(简称CDF): 具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数(pdf)。 在常用的文献中,“分布”一词可指其广义和狭义,而“累计分布函数”或“分布函数”一词只能指称后者。为了不致混淆,下文中谈及上述的广义时使用“分布”一词;狭义时使用“分布函数”一词。 目 |
数量 | ( i , j )∈ S | |||
6 | ( 1,1 ),( 2,2 ),( 3,3 ) ( 4,4 ),( 5,5 ),( 6,6 ) | 0 | 6/36 | 6/36 |
10 | ( 1,2 ),( 2,3 ) ( 3,4 ),( 4,5 ),( 5,6 ) ( 2,1 ),( 3,2 ),( 4,3 ) ( 5,4 ),( 6,5 ) | 1 | 10/36 | 16/36 |
8 | ( 1,3 ),( 2,4 ),( 3,5 ) ( 4,6 ),( 3,1 ),( 4,2 ) ( 5,3 ),( 6,4 ) | 2 | 8/36 | 24/36 |
6 | ( 1,4 ),( 2,5 ),( 3,6 ) ( 4,1 ),( 5,2 ),( 6,3 ) | 3 | 6/36 | 30/36 |
4 | ( 1,5 ),( 2,6 ) ( 5,1 ),( 6,2 ) | 4 | 4/36 | 34/36 |
2 | ( 1,6 ),( 6,1 ) | 5 | 2/36 | 36/36 |
其分布函数是:
上面所列举的例子属于离散分布,即分布函数的值域是离散的,比如只取整数值的随机变量就是属于离散分布的。表示随机变量的概率值。如果X的取值只有,则:
二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利(Jakob Bernoulli)所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为,那么在次试验中出现次的概率为:
二项分布在时表现出图像的对称性,而在取其它值时是非对称的。另外二项分布的期望值,以及方差
作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有个球,其中个黑球,个红球,通过下面的超几何分布公式可以计算出,从容器中抽出的个球中(抽出的球不放回去)有个黑球的概率是多少:
例如,容器中一共10个球,其中6个黑色,4个白色,一共抽5次(抽出的球不放回去),在这5个球中有3个黑球的概率是:
超几何分布和二项分布的关系
和二项分布不同的是,在超几何分布中,特别强调的是抽出的样品在下一次抽取前不再放回去,但是如果抽取的次数和总共样品数相比很小(大约),这时在计算上二项分布和超几何分布相互间则没有主要的区别,此时人们更愿意采用二项分布的方法,因为在数学计算上二项分布要简单一些。
泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值相对很小,而抽取次数值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为,那么在次试验中出现次的概率按照泊松分布应该为:
例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:
在实践中如果遇到值很大导致二项分布难于计算时,可以考虑使用泊松分布,但前提是必须趋于一个有限极限。采用泊松分布的一个不太严格的规则(通过展开二项分布,并在形式上化简为类似泊松分布后,利用极限化简即可得)是:
设是具有分布函数的连续随机变量,且F的一阶导数处处存在,则其导函数
称为的概率密度函数。
每个概率密度函数都有如下性质:
第一个性质表明,概率密度函数与轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间的概率值等于密度函数在区间上的积分,也即是与轴在内形成的区域的面积。因为,且是的导数,因此按照积分原理不难推出上面两个公式。
正态分布、指数分布、-分布,-分布以及-分布都是连续分布。
正态分布
连续随机变量的概率密度函数如果是如下形式,
那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中是平均值,是标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,正态概率密度函数具有和普通概率密度函数类似的性质:
如果给出一个正态分布的平均值以及标准差,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助-变换以及标准正态分布表格(-表格)。
中间值以及标准差的正态分布被称之为标准正态分布,其累积分布函数是
将普通形式的正态分布变换到标准正态分布的方法是
正态分布和二项分布
在离散分布中如果试验次数值非常大,而且单次试验的概率值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:。
上(下)临界值分别增加(减少)修正值0.5的目的是在值很大时获得更精确的近似值,只有很小时,修正值0.5可以不被考虑。
例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,
|
来自: 好易学 > 《概率论与数理统计》