概率分布

好易学 2019-02-22

展开全文

概率分布（德语：Wahrscheinlichkeitsverteilung，英语：probability distribution）或简称分布，是概率论的一个概念。使用时可以有以下两种含义：

广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量X和Y具有同样的分布（或同分布）时，我们是无法用概率来区别他们的。换言之：

称X和Y为同分布的随机变量，当且仅当对任意事件，有成立。

但是，不能认为同分布的随机变量是相同的随机变量。

狭义地，它是指随机变量的概率分布函数。设X是样本空间上的随机变量，为概率测度，则称如下定义的函数是X的分布函数，或称累积分布函数（简称CDF）：

，对任意实数定义。

具有相同分布函数的随机变量一定是同分布的，因此可以用分布函数来描述一个分布，但更常用的描述手段是概率密度函数（pdf）。

在常用的文献中，“分布”一词可指其广义和狭义，而“累计分布函数”或“分布函数”一词只能指称后者。为了不致混淆，下文中谈及上述的广义时使用“分布”一词；狭义时使用“分布函数”一词。

目
录

· 3离散分布

· 4连续分布

1 分布函数的性质刻划

对于特定的随机变量，其分布函数是单调不减及右连续，而且，。这些性质反过来也描述了所有可能成为分布函数的函数：

设且单调不减、右连续，则存在概率空间及其上的随机变量X ，使得F 是X 的分布函数，即

2 随机变量的分布

设为概率测度，为随机变量，则函数 ()称为的概率分布函数。如果将看成是数轴上的随机点的坐标，那么，分布函数在处的函数值就表示落在区间上的概率。

例如，设随机变量为掷两次骰子所得的点数差，而整个样本空间由36个元素组成。

数量	( i , j )∈ S
6	( 1,1 )，( 2,2 )，( 3,3 ) ( 4,4 )，( 5,5 )，( 6,6 )	0	6/36	6/36
10	( 1,2 )，( 2,3 ) ( 3,4 )，( 4,5 )，( 5,6 ) ( 2,1 )，( 3,2 )，( 4,3 ) ( 5,4 )，( 6,5 )	1	10/36	16/36
8	( 1,3 )，( 2,4 )，( 3,5 ) ( 4,6 )，( 3,1 )，( 4,2 ) ( 5,3 )，( 6,4 )	2	8/36	24/36
6	( 1,4 )，( 2,5 )，( 3,6 ) ( 4,1 )，( 5,2 )，( 6,3 )	3	6/36	30/36
4	( 1,5 )，( 2,6 ) ( 5,1 )，( 6,2 )	4	4/36	34/36
2	( 1,6 )，( 6,1 )	5	2/36	36/36

其分布函数是：

3 离散分布

上面所列举的例子属于离散分布，即分布函数的值域是离散的，比如只取整数值的随机变量就是属于离散分布的。表示随机变量的概率值。如果X的取值只有，则：

二项分布

二项分布是最重要的离散概率分布之一，由瑞士数学家雅各布·伯努利（Jakob Bernoulli）所发展，一般用二项分布来计算概率的前提是，每次抽出样品后再放回去，并且只能有两种试验结果，比如黑球或红球，正品或次品等。二项分布指出，随机一次试验出现的概率如果为，那么在次试验中出现次的概率为：

例如，在掷3次骰子中，不出现6点的概率是：

在连续两次的轮盘游戏中，至少出现一次红色的概率为：

二项分布在时表现出图像的对称性，而在取其它值时是非对称的。另外二项分布的期望值，以及方差

超几何分布

作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有个球，其中个黑球，个红球，通过下面的超几何分布公式可以计算出，从容器中抽出的个球中（抽出的球不放回去）有个黑球的概率是多少：

例如，容器中一共10个球，其中6个黑色，4个白色，一共抽5次（抽出的球不放回去），在这5个球中有3个黑球的概率是：

超几何分布和二项分布的关系

和二项分布不同的是，在超几何分布中，特别强调的是抽出的样品在下一次抽取前不再放回去，但是如果抽取的次数和总共样品数相比很小（大约），这时在计算上二项分布和超几何分布相互间则没有主要的区别，此时人们更愿意采用二项分布的方法，因为在数学计算上二项分布要简单一些。

泊松近似

泊松近似是二项分布的一种极限形式。其强调如下的试验前提：一次抽样的概率值相对很小，而抽取次数值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出，如果随机一次试验出现的概率为，那么在次试验中出现次的概率按照泊松分布应该为：

其中数学常数(自然对数的底数)

例如，某工厂在生产零件时，每200个成品中会有1个次品，那么在100个零件中最多出现2个次品的概率按照泊松分布应该是：

在实践中如果遇到值很大导致二项分布难于计算时，可以考虑使用泊松分布，但前提是必须趋于一个有限极限。采用泊松分布的一个不太严格的规则（通过展开二项分布，并在形式上化简为类似泊松分布后，利用极限化简即可得）是：

4 连续分布

设是具有分布函数的连续随机变量，且F的一阶导数处处存在，则其导函数

称为的概率密度函数。

每个概率密度函数都有如下性质：

第一个性质表明，概率密度函数与轴形成的区域的面积等于1，第二个性质表明，连续随机变量在区间的概率值等于密度函数在区间上的积分，也即是与轴在内形成的区域的面积。因为，且是的导数，因此按照积分原理不难推出上面两个公式。

正态分布、指数分布、-分布，-分布以及-分布都是连续分布。

正态分布

连续随机变量的概率密度函数如果是如下形式，

那么这个连续分布被称之为正态分布，或者高斯分布。其密度函数的曲线呈对称钟形，因此又被称之为钟形曲线，其中是平均值，是标准差。正态分布是一种理想分布，许多典型的分布，比如成年人的身高，汽车轮胎的运转状态，人类的智商值（IQ），都属于或者说至少接近正态分布。同样按照连续分布的定义，正态概率密度函数具有和普通概率密度函数类似的性质：