分享

统计学基础:二项分布、伯努利分布和大样本占比的假设检验

 非著名问天 2023-04-01 发布于内蒙古
一、二项分布
(一)什么是二项分布?
重复进行n次随机实验,n次随机实验相互独立,每次实验仅有2个可能的结果(事件A发生、事件A不发生),每次实验事件A发生的概率p,事件A不发生的概率1-p。
用X表示n次实验中事件A发生的次数,则X可能的取值k=0,1,2,3,……,n。随机变量X的离散概率分布即为二项分布且对每一个k,事件{X=k}表示“n次实验中事件A恰好发生了k次”,发生k次的概率为:
图片
(二)二项分布的特性
n指实验的次数,p是成功的概率
    • 二项分布的期望E(x)=np  期望并不一定是可能性最大的那个值
    • 项分布的方差=np(1-p)
    • 当实验次数很大的时候,二项分布就趋近正态分布,一般当np>5n(1-p)>5时,二项分布可近似为正态分布
二、伯努利分布
这里用一页笔记来简单概述一下什么是伯努利分布:

图片

三、大样本占比的假设检验
这里用一个案例来介绍:我们要检验一个假设,即超过30%美国家庭接入了互联网,显著性水平5%。现在,我们采集了150个家庭作为样本,结果57家已接入。
要进行假设检验,首先要设定零假设和备择假设。
零假设H0:零假设即假设要检验的内容不正确,即美国家庭总体的互联网接入率小于等于30%
备择假设H1:美国家庭总体的互联网接入率超过30%
接着要计算在零假设成立前提下,看150个样本有57家接入互联网的概率是多少,如果该概率小于5%,即小于显著性水平,那我们就拒绝零假设,接受备择假设。
如果零假设成立,根据该假设,得到一个总体均值u= PH0=0.3
(说明:按照接入概率最大的情况来看,如果总体出现概率最大(即互联网接入率30%),随机抽样还是不置信,那么概率小一些后更加不置信了)
    • 零假设中总体接入率最大的概率是30%
    • 零假设中总体方差是δH0=√0.3*(1-0.3)= √0.21
n*p=150*0.3>5;n*(1-p)=150*0.7>5 ---可假定样本占比的分布为正态分布
样本占比=57/150=0.38
么接下来要计算的是随机抽样150个家庭,出现38%的家庭接入互联网的概率是多少?
    • 抽样占比的分布均值等于总体的均值 u= PH0=0.3
    • 抽样占比的方差=总体方差/样本容量=δH0/√n=√0.21/√150=0.037
接着计算z分数=(0.38-0.3)/0.037=2.14
首先这是一个单边检验,也就是咱们要验证抽样占比的分布中,离均值右侧大于2.14的标准差的概率,用excel即可计算:
P=(1-NORMSDIST(2.14))=0.016<0.05
说明出现H0假设是小概率事件,所以拒绝H0假设,接受H1假设-美国家庭总体的互联网接入率超过30%
PS:EXCEL函数NORMSDIST补充说明:
图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多