重复进行n次随机实验,n次随机实验相互独立,每次实验仅有2个可能的结果(事件A发生、事件A不发生),每次实验事件A发生的概率p,事件A不发生的概率1-p。用X表示n次实验中事件A发生的次数,则X可能的取值k=0,1,2,3,……,n。随机变量X的离散概率分布即为二项分布,且对每一个k,事件{X=k}表示“n次实验中事件A恰好发生了k次”,发生k次的概率为:- 二项分布的期望E(x)=np 期望并不一定是可能性最大的那个值
- 当实验次数很大的时候,二项分布就趋近正态分布,一般当np>5且n(1-p)>5时,二项分布可近似为正态分布。
这里用一个案例来介绍:我们要检验一个假设,即超过30%美国家庭接入了互联网,显著性水平5%。现在,我们采集了150个家庭作为样本,结果57家已接入。零假设H0:零假设即假设要检验的内容不正确,即美国家庭总体的互联网接入率小于等于30%备择假设H1:美国家庭总体的互联网接入率超过30%接着要计算在零假设成立前提下,看150个样本有57家接入互联网的概率是多少,如果该概率小于5%,即小于显著性水平,那我们就拒绝零假设,接受备择假设。如果零假设成立,根据该假设,得到一个总体均值u= PH0=0.3(说明:按照接入概率最大的情况来看,如果总体出现概率最大(即互联网接入率30%),随机抽样还是不置信,那么概率小一些后更加不置信了)- 零假设中总体方差是δH0=√0.3*(1-0.3)= √0.21
n*p=150*0.3>5;n*(1-p)=150*0.7>5 ---可假定样本占比的分布为正态分布那么接下来要计算的是随机抽样150个家庭,出现38%的家庭接入互联网的概率是多少?- 抽样占比的分布均值等于总体的均值 u= PH0=0.3
- 抽样占比的方差=总体方差/√样本容量=δH0/√n=√0.21/√150=0.037
接着计算z分数=(0.38-0.3)/0.037=2.14首先这是一个单边检验,也就是咱们要验证抽样占比的分布中,离均值右侧大于2.14的标准差的概率,用excel即可计算:P值=(1-NORMSDIST(2.14))=0.016<0.05说明出现H0假设是小概率事件,所以拒绝H0假设,接受H1假设-美国家庭总体的互联网接入率超过30%
|