第二章第二节

种韭菜的 2011-03-07

展开全文

第二节分布函数与连续型随机变量

§2 分布函数与连续型随机变量

一、分布函数

二、连续型随机变量及密度函数

三、常见的连续型随机变量

一、分布函数

1.定义

离散型随机变量是用分布列来表示其概率分布。但对其它随机变量来说，分布列不存在，例如随机变量可取的值为一连续区间的一切值时，就无法一一罗列这些值及其概率。为此要引入概率分布的新的表示法，我们希望它对一切随机变量都适用。

在第一节中，我们曾把概率分布定义为一切概率，其中是R上的任一波雷尔集。现在取，它是波雷尔集，从而事件={}有概率。如果我们对一切实数都定义了上面的概率，那么对于任意实数，事件{}的概率可立即求出：

P{}=－。 (1)

进一步，由于任意波雷尔集B是左开右闭区间的（有限或可列）并、（有限或可列）交、逆产生的集合，所以由（1）可以算出，因此，对任意实数,可以代表的概率分布。

定义1 称

，－∞＜＜+∞ (2)

为随机变量的分布函数 (distribution function)。

对确定的随机变量,其分布函数是唯一确定的，它是实变量的函数，因此我们可以利用实变函数论这一有力工具来研究随机变量。

有了分布函数，则对任一波雷尔集，概率可以用分布函数来表示。事实上，由(1)式，

(3)

再利用概率的运算，就可得到其它事件的概率。例如

，

。

例1 设随机变量ξ服从伯努里分布：，写出它的分布函数，并计算。

解当<0时，=0， (不可能事件)；

当0≤<1时，=；

当≥1时，

；

因此分布函数

而

= F(0.5－0)－F(－1) = 。

例2 在△ABC内任取一点P，P到BC的距离为，求的分布函数。

解设BC边上的高为。当< 0时，显然 P(≤) = 0；当0≤<时，在

△ABC内作平行BC的线段DE，使与BC的距离为x，则{≤}表示点P落在梯形DBCE内。由几何概率，

= =1－(1－/)；

当≥时， {≤} 表示点P在△ABC内任意取，故P(≤)=1；

综上所述，分布函数为

。

2.性质

分布函数是事件{≤}的概率，自然有0≤≤1，除此以外，分布函数还有下面三个基本性质：

(1) 单调不减性：若,则；

(2) =0，=1； ①

(3) 右连续性：=。②

证 (1)≥0。

(2) 由于F(x) 单调有界，存在极限

F(－∞) =F(－)。

但{-}{-(+1)}且=，故由概率的连续性定理(§3)

F(-)=P{-}=P()=0。

又{}{(+1)}及=Ω，故

F()=P{}=P(Ω)=1。

(3) 由F()的单调性，只需证F(+1/) = F()。因

{ξ≤+1/ (－1)}{ξ≤+1/}

且

={ξ≤}

故

F(+1/) =P{ξ≤+1/}

= P{ξ≤} = F()。

分布函数有上述三性质，反之可证，有上述三性质的函数必可作为某随机变量的分布函数。

例3 设随机变量的分布函数如下，试确定常数a，b。

。

解应满足上面三个性质。F(-∞)=0与 F(+∞) =1已成立；又在各段内是不减的 (如果>0)，故只要0≤≤1，就整体单调了；剩下的只需讨论右连续性，这只要考察=－1与=1两点，应满足F(－1+0)=F(－1)和F(1+0)=F(1)，即

-π/ 2 = 0， 1= +π/2 ，

解之得=1/2， =1/π。

3.离散型随机变量的分布函数

分布函数作为随机变量概率分布的一种表达方式，对一切随机变量(包括离散型)都适用。在例1中已经写出伯努里分布的分布函数，这是分段函数，在=0和=1处各有一跳跃。

一般说来，设的分布列为，且<<…<<…，则的分布函数为

，

它是间断的分段函数，在，=1，2， …各有一跳跃，跃度为，在每一段 [，)中都是常数，呈阶梯形。

二、连续型随机变量及密度函数

定义2 若随机变量可取某个区间（有限或无限）中的一切值，并且存在某个非负的可积函数，使分布函数满足

， (4)

则称为连续型(continuous)随机变量，称为的概率密度函数，简称为密度函数(density function)，具有上述性质的函数称为是绝对连续的。

由连续型随机变量的定义，使它的分布函数具有下列良好的数学性质。

(1) 在实变函数论中可以证明，若绝对连续，则必定处处连续；并且在的连续点，可导，且

。 (5)

(2) (4)式表示的与密度函数的关系使得对一连续型随机变量，只要给出密度函数，就可以直接算得落在任意区间的概率:

－

=－

=。 (6)

由此对R上的一切波雷尔集都可通过来计算概率。

(3) 特别，对任一常数，

== 0， (7)

因此对连续型随机变量，计算在一点的概率是没有意义的，这也是不能用分布列描写连续型随机变量的理由之一。但是一个可能发生的事件，这又说明对连续型随机变量,一事件A的概率为0并不表明A =φ；同样若P(A) =1，也并不表明A =Ω。这些都是与离散型随机变量的根本区别。

密度函数具有下列性质:

(1) 非负性：≥0； (8)

(2)=1。 (9)

后者由F(+∞)=1得到。反之，对于定义在 (－∞，+∞)上的可积函数，若它满足(8)和(9)式，则它就可作为某一随机变量的密度函数。

例4 例3中的是否可作为连续型随机变量的分布函数？

解除=－1，1两点以外, 处处可导，记其导数为。

当－1<<1时，=；其它情况=0；

满足(8) (9)两式，故为密度函数，表示连续型分布函数。

应该指出，除了离散型，连续型以外，随机变量还有其它类型，例如

是分布函数，它不是离散型的，也不是连续型的 ( 因为它不连续 )，它是=0处退化分布和[0,1]上均匀分布(见下一段) 的混合：

=(+)/2。

甚至还存在这样的分布，它是一个连续函数，却不是绝对连续的。不过常见的是离散型和连续型。以后如果对一般的随机变量进行讨论，就用分布函数；如果对离散型情形，主要就用分布列；如果对连续型，则主要用密度函数,不另提其它类型了。

三、常见的连续型随机变量

1.均匀(Uniform)分布

对，称随机变量服从上的均匀分布，如果它的密度函数为

。 (10)

简记作～。当<时，显然(≤)=0；当≤<时，

；

当≥时，

==1；

因此其分布函数为

上的均匀分布相当于样本空间为的几何概率。在区间上投点，其落点位置就服从这个分布。又如考察一个数据，它在小数点n位后四舍五入，则其真值x与其近似值之间的误差一般假定服从[－0.5， 0.5]上的均匀分布。就可对经过大量运算后的数据进行误差分析。它在使用计算机解题时是很重要的，因为计算机的字长总是有限的。

2.正态分布

若随机变量的密度函数为

， (11)

就称服从正态(Normal)分布，记作～。其中， >0。我们来证明(11)定义的确是密度函数。显然>0，又

上述二重积分可用极坐标表示成

也即。

正态分布是概率论中最重要的一种分布，与二项分布、泊松分布并称为三大分布，它在实际应用与理论上都有很大作用。一方面，正态分布应用很广，一般说来，若影响某一数量指标的随机因素很多，而每一因素所起的作用又不很大，则这个数量指标服从正态分布。例如进行测量时，由于仪器精度、人的视力、心理因素、外界干扰等多种因素影响，测量结果大致服从正态分布，其中为真值；测量误差也服从正态分布。事实上，正态分布是19世纪初高斯（Gauss）在研究测量误差时首次引进的，故正态分布又称误差分布或高斯分布；另外，生物的生理尺寸如成人的身高、体重，某地区一类树木的胸径，炮弹落地点，某类产品的某个尺寸等等都近似服从正态分布。另一方面，正态分布具有良好的性质，一定条件下，很多分布可用正态分布来近似表达，另一些分布又可以通过正态分布来导出，因此，正态分布在理论研究中也相当重要。我们先来观察它的密度函数的图形。

如果点与关于直线对称，即，则，因此关于直线对称。