什么是正态分布 正态概率分布是连续型随机变量概率分布中最重要的形式,它在实践中有着广泛的应用。在生活中有许多现象的分布都服从正态分布,如人的身高、体重、智商分数;某种产品的尺寸和质量;降雨量;学习成绩,特别是,在统计推断时,当样本的数量足够大时,许多统计数据都服从正态分布。下面以人的身高为例,通俗解释一下什么是正态分布? 随机抽取200位同等年龄上下的男性,测量好他们的身高之后计算出平均身高,通过将平均身高和他们各自的身高对比,我们可以轻松发现这一现象:大多数男性的身高都集中在平均身高上下浮动,有极少数男性身高很矮,也有极少数男性身高很高。这200为男性身高的概率密度函数可能如下图所示: 实际上,这种形状十分常见,应用很广泛,它叫做正态分布。 正态分布的概率密度函数 正态分布之所以被称为正态,是因为它的形态看起来合乎理性。在现实生活中,遇到测量值之类的大量连续数据时,正常情况下都会期望看到这种形态。正态分布的概率密度函数的计算公式如下: 其中μ=均值,σ=标准差,π=3.14159,e=2.71828。如果随机变量X符合上述概率密度函数的分布,则称X是服从参数为μ,σ2的正态分布,记为X~N(μ,σ2)。 正态分布的概率密度函数具有下列性质;
正态分布求概率 在《每天一点统计学——概率密度函数》中,我们已经知道如何使用概率密度函数求概率的方法。但是在正态分布中求概率是非常困难的,提供包括所有不同的μ和σ的正态分布表也是不可能的。所以统计学家通过一种简单的方法来解决这一问题。对于一个随机变量X~N(μ,σ2),如果令Z=(x-μ)/σ(标准分),则随机变量Z服从μ=0,σ2=1的正态分布,记为Z~N(0,1),称为标准正态分布。 标准正态分布的概率密度函数为: 通过上式可以看出标准正态分布不再依赖于参数μ和σ,它是固定的,是唯一的。因此,标准正态分布中随机变量与其概率的对应关系被计算出来,并列为标准正态概率分布表,以便查询。于是,对于不同的μ和σ,只要将变量值转化为Z值,然后查表即可得到其概率值。 标准正态概率分布表 例子:已知研究生完成一篇硕士论文的时间服从正态分布,平均花费2500h,标准差为400h,现随机找到一个已完成论文的学生,求: (1)他完成论文的时间超过2700h的概率; (2)他完成论文的时间低于2000h的概率; (3)他完成论文的时间在2400h~2600h之间的概率。 解:用X表示完成论文的时间,则X~N(2500,400*400)。这是非标准的正态分布,如果直接计算概率是非常麻烦的,我们首先将其转化为标准正态分布,然后通过标准正态分布表查出变量的概率值。 (1)求P(X>2700) Z=(x-μ)/σ=(2700-2500)/400=0.5 可以查询标准正态分布概率表,表中第一列是z值,第一行是z值的补充值,现z=0.5求的是从0.5到+∞的区间上的概率,即1-0.6915 = 0.3085。 (2)求P(X<> Z=(x-μ)/σ=(2000-2500)/400=-1.25 根据正态分布的对称性,1.25的概率值与-1.25的概率值完全对称,所以只查1.25的概率值即可。Z=1.25时,P(1.25)=0.8944,则P(-1.25)= 1-P(1.25)=0.1056 (3)求P(2400<><> Z1=(x-μ)/σ=(2600-2500)/400=0.25 Z2=(x-μ)/σ=(2400-2500)/400=-0.25 查询标准正态分布概率表,可得出P(0.25) = 0.5987,P(-0.25) = 0.4013。 P(2400<><><2600) -="">2600)><2400) =="" 0.5987="" -="" 0.4013="">2400)> |
|