分享

第二章第二节

 种韭菜的 2011-03-07
第二节 分布函数与连续型随机变量

 

§分布函数与连续型随机变量

 

一、分布函数

二、连续型随机变量及密度函数

三、常见的连续型随机变量

 

一、分布函数

1.定义

离散型随机变量是用分布列来表示其概率分布。 但对其它随机变量来说,分布列不存在,例如随机变量可取的值为一连续区间的一切值时,就无法一一罗列这些值及其概率。为此要引入概率分布的新的表示法,我们希望它对一切随机变量都适用。

在第一节中,我们曾把概率分布定义为一切概率,其中R上的任一波雷尔集。现在取,它是波雷尔集,从而事件={}有概率。如果我们对一切实数都定义了上面的概率,那么对于任意实数,事件{}的概率可立即求出:

P{}=      (1)

进一步, 由于任意波雷尔集B是左开右闭区间的(有限或可列)并、(有限或可列)交、逆产生的集合,所以由(1)可以算出, 因此, 对任意实数,可以代表的概率分布。

定义1 

         -∞<+         (2)

为随机变量分布函数 (distribution function)

对确定的随机变量,其分布函数是唯一确定的,它是实变量的函数,因此我们可以利用实变函数论这一有力工具来研究随机变量。

有了分布函数,则对任一波雷尔集,概率可以用分布函数来表示。事实上,由(1)式,

              (3)

再利用概率的运算,就可得到其它事件的概率。 例如

    

    

    

    

1  设随机变量ξ服从伯努里分布:,写出它的分布函数,并计算

  <0时,=0 (不可能事件)

0<1时,=

1时,

因此分布函数

       

 = F(0.50)F(1) =

2  在△ABC内任取一点PPBC的距离为,求的分布函数。

  BC边上的高为。当< 0时,显然 P() = 0  0<时,在

            A

ABC内作平行BC的线段DE,使与BC的距离为x,则{}表示点P落在梯形DBCE内。由几何概率,

D

E

P

h

ξ

= =1(1/)

B

C

时, {} 表示点P在△ABC内任意取,故P()=1

综上所述,分布函数为

 

2.性质

分布函数是事件{}的概率,自然有01,除此以外,分布函数还有下面三个基本性质:

(1) 单调不减性:若,

(2) =0=1

(3) 右连续性:=

(1)0

(2) 由于F(x) 单调有界,存在极限

F(-∞) =F()

{-}{-(+1)}=,故由概率的连续性定理(§3)

F(-)=P{-}=P()=0

{}{(+1)}=Ω, 故

F()=P{}=P(Ω)=1

(3) F()的单调性,只需证F(+1/) = F()。因

{ξ≤+1/ (1)}{ξ≤+1/}

={ξ≤}

F(+1/) =P{ξ≤+1/}

           = P{ξ≤} = F()

分布函数有上述三性质,反之可证,有上述三性质的函数必可作为某随机变量的分布函数。

3  设随机变量的分布函数如下,试确定常数ab

               

  应满足上面三个性质。F(-)=0 F(+) =1已成立;又在各段内是不减的 (如果>0),故只要01, 就整体单调了;剩下的只需讨论右连续性,这只要考察=1=1两点,应满足F(1+0)=F(1)F(1+0)=F(1),即

-π/ 2 = 0     1= +π/2      

解之得=1/2  =1/π。

3.离散型随机变量的分布函数

分布函数作为随机变量概率分布的一种表达方式,对一切随机变量(包括离散型)都适用。在例1中已经写出伯努里分布的分布函数,这是分段函数,在=0=1处各有一跳跃。

一般说来,设的分布列为,且<<<<…, 则的分布函数为               

 

它是间断的分段函数,在=12, …各有一跳跃,跃度为,在每一段 [)中都是常数,呈阶梯形。

 

二、连续型随机变量及密度函数

定义2  若随机变量可取某个区间 (有限或无限)中的一切值, 并且存在某个非负的可积函数,使分布函数满足

                      (4)

则称连续型(continuous)随机变量,称的概率密度函数,简称为密度函数(density function),具有上述性质的函数称为是绝对连续的。

由连续型随机变量的定义,使它的分布函数具有下列良好的数学性质。

(1) 在实变函数论中可以证明,若绝对连续,则必定处处连续;并且在的连续点,可导,且

                         (5)            

(2) (4)式表示的与密度函数的关系使得对一连续型随机变量,只要给出密度函数,就可以直接算得落在任意区间的概率:

=

=                                (6)

由此对R上的一切波雷尔集都可通过来计算概率。

(3) 特别,对任一常数

== 0                         (7)

因此对连续型随机变量,计算在一点的概率是没有意义的,这也是不能用分布列描写连续型随机变量的理由之一。 但是一个可能发生的事件,这又说明对连续型随机变量,一事件A的概率为0并不表明A =φ;同样若P(A) =1,也并不表明A =Ω。 这些都是与离散型随机变量的根本区别。

密度函数具有下列性质:

(1) 非负性:0                                    (8)

(2)=1                                          (9)

后者由F(+)=1得到。反之,对于定义在 (-∞,+)上的可积函数, 若它满足(8)(9)式,则它就可作为某一随机变量的密度函数。

4  3中的是否可作为连续型随机变量的分布函数?

  =11两点以外, 处处可导,记其导数为

当-1<<1时,=   其它情况=0

满足(8) (9)两式,故为密度函数,表示连续型分布函数。

应该指出,除了离散型,连续型以外,随机变量还有其它类型,例如

 

是分布函数,它不是离散型的,也不是连续型的 ( 因为它不连续 ),它是=0处退化分布[0,1]上均匀分布(见下一段) 的混合:     

              =(+)/2

甚至还存在这样的分布,它是一个连续函数,却不是绝对连续的。不过常见的是离散型和连续型。 以后如果对一般的随机变量进行讨论,就用分布函数;如果对离散型情形,主要就用分布列;如果对连续型,则主要用密度函数,不另提其它类型了。

 

 

三、常见的连续型随机变量

1.均匀(Uniform)分布

,称随机变量服从上的均匀分布,如果它的密度函数为

                                 (10)

简记作。 当<时, 显然()=0;当<时,

 =

时,

==1

因此其分布函数为

上的均匀分布相当于样本空间为的几何概率。 在区间上投点,其落点位置就服从这个分布。又如考察一个数据,它在小数点n位后四舍五入,则其真值x与其近似值之间的误差一般假定服从[0.5 0.5]上的均匀分布。就可对经过大量运算后的数据进行误差分析。它在使用计算机解题时是很重要的,因为计算机的字长总是有限的。

2.正态分布

若随机变量的密度函数为

                            (11)

   就称服从正态(Normal)分布,记作。 其中>0。我们来证明(11)定义的确是密度函数。 显然>0,又

=

上述二重积分可用极坐标表示成

也即

 

正态分布是概率论中最重要的一种分布,与二项分布、泊松分布并称为三大分布,它在实际应用与理论上都有很大作用。 一方面,正态分布应用很广,一般说来,若影响某一数量指标的随机因素很多,而每一因素所起的作用又不很大,则这个数量指标服从正态分布。例如进行测量时,由于仪器精度、人的视力、心理因素、外界干扰等多种因素影响,测量结果大致服从正态分布,其中为真值;测量误差也服从正态分布。事实上,正态分布是19世纪初高斯(Gauss)在研究测量误差时首次引进的,故正态分布又称误差分布或高斯分布;另外,生物的生理尺寸如成人的身高、体重,某地区一类树木的胸径,炮弹落地点,某类产品的某个尺寸等等都近似服从正态分布。另一方面,正态分布具有良好的性质,一定条件下,很多分布可用正态分布来近似表达,另一些分布又可以通过正态分布来导出,因此,正态分布在理论研究中也相当重要。 我们先来观察它的密度函数的图形。

如果点关于直线对称,即,则, 因此关于直线对称。

时,单调递减;当时,单调递增;时,0时,有最大值,因此越大,最高点越低;但因为曲线与轴包围的面积等于常数=1,因此越大,p (x) 的图形越扁平,取值离开点远的概率也越大;越小,则的图形越陡峭,取值越集中在点附近。

=0=1时,称为标准正态分布(standardized normal distribution),它的密度曲线关于纵轴对称,其密度及分布函数特别记为

                  -∞< <+∞。         (12)

利用(11)式计算正态分布的概率是不容易的。人们已经制作了专门的表格以供查阅,一般情况只需标准正态分布Φ()的数值表(见附录III)就够了。 下面介绍该表的使用方法。

1) N(0,1)

0, 每隔一定数值 (附录中是间隔01) 可以查到对应的分布函数Φ()的值;在这些数值之间,可以用线性插值法求得相应的函数值。

< 0时,注意到标准正态密度函数()关于直线 = 0对称,故令=-,则

==1-,

也即

                          Φ(-)=1-Φ(y)              (13)       

结合>0时的Φ() 表就可算出<0时Φ()的值。

2) 对一般的,(称为的标准化随机变量),则它服从N(0,1)。 事实上的分布函数

==Φ(x)

例5    N(0,1)

(1) 计算P(-1<<3); 

(2) 已知P(<λ) = 0.9755, 求λ。

(1)P(-1<<3)=Φ(3)-Φ(-1)=Φ(3)+Φ(1)-1= 0.9987+0.8413-1= 0.8400

(2) Φ(λ) = 0.9755, 它在Φ(1.96) = 0.9750与Φ(1.98) = 0.9762之间, 由于Φ()是单调不减的,故λ在1.961.98之间, 由线性插值公式

        λ1.96+·(1.98-1.96)1.968

6  设ξ~N (2,9), P (5 <ξ<20)

  令η= (ξ-2)/3,则η~N (0,1),从而

P(5<ξ<20)= P(<<)

= P(1<η<6)=Φ(6)-Φ(1)

1-0.8413=0.1587   

7  , , 以及

  N (0,1),

0.6827

同理,

0.9545,

0.9973

说明正态随机变量的99.73 %的值落在之中, 落在该区间之外的概率几乎为零,这情况被实际工作者称为“原则”。

例8    从南郊某地乘车到北区火车站有两条路可走,第一条路较短,但交通拥挤,所需时间τ服从N (50, 100) 分布;第二条路线略长,但意外阻塞较少,所需时间ξ服从N (60,16) 

(1) 若有70分钟可用,问应走哪一条路?

(2) 若只有65分钟可用,又应走哪一条路?

  应该走在允许时间内有较大概率赶到火车站的路线。

(1) 走第一条路线能及时赶到的概率为

P(τ≤70)=Φ()=Φ(2)=0.9772

而走第二条路线能及时赶到的概率为 

   P(ξ≤70)=Φ()=Φ(2.5)=0.9938,

因此在这种场合,应走第二条路线。

(2) 走第一条路线能及时赶到的概率为

P(τ≤65)=Φ(1.5)=0.9332,

而走第二条路线能及时赶到的概率为 

P(ξ≤65)=Φ(1.25)=0.8944

此时以走第一条路线更为保险。

3.指数分布

密度函数为

     (λ>0)                (14)

的分布称为指数(Exponential)分布。 容易验证(14)式满足密度函数的两个条件。  现在求它的分布函数。

<0,P(ξ≤) ==0;  0, P(ξ≤) ==1--e

即其分布函数为

指数分布具有类似几何分布的“无记忆性”。 事实上,设随机变量ξ服从参数为λ的指数分布,则对于任意的s >0, t > 0,

=/=

还可以证明,指数分布是具有上述性质的唯一的连续型分布。 (证明略)

4.Γ-分布

它的密度函数为  

    (> 0, > 0)        (15)

 其中Γ() 是第一型欧拉积分。参数为,的Γ-分布简记为Γ(,),当为整数时也称爱尔兰(Erlang)分布= 1时即为指数分布。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多