统计学基础：二项分布、伯努利分布和大样本占比的假设检验

非著名问天 2023-04-01 发布于内蒙古

展开全文

一、二项分布

（一）什么是二项分布？

重复进行n次随机实验，n次随机实验相互独立，每次实验仅有2个可能的结果（事件A发生、事件A不发生），每次实验事件A发生的概率p，事件A不发生的概率1-p。

用X表示n次实验中事件A发生的次数，则X可能的取值k=0,1,2,3，……，n。随机变量X的离散概率分布即为二项分布，且对每一个k，事件{X=k}表示“n次实验中事件A恰好发生了k次”，发生k次的概率为:

（二）二项分布的特性

n指实验的次数,p是成功的概率

二、伯努利分布

这里用一页笔记来简单概述一下什么是伯努利分布：

三、大样本占比的假设检验

这里用一个案例来介绍：我们要检验一个假设，即超过30%美国家庭接入了互联网，显著性水平5%。现在，我们采集了150个家庭作为样本，结果57家已接入。

要进行假设检验，首先要设定零假设和备择假设。

零假设H0：零假设即假设要检验的内容不正确，即美国家庭总体的互联网接入率小于等于30%

备择假设H1：美国家庭总体的互联网接入率超过30%

接着要计算在零假设成立前提下，看150个样本有57家接入互联网的概率是多少，如果该概率小于5%，即小于显著性水平，那我们就拒绝零假设，接受备择假设。

如果零假设成立，根据该假设，得到一个总体均值u= P_H0=0.3

（说明：按照接入概率最大的情况来看，如果总体出现概率最大（即互联网接入率30%），随机抽样还是不置信，那么概率小一些后更加不置信了）

n*p=150*0.3>5；n*(1-p)=150*0.7>5 ---可假定样本占比的分布为正态分布

样本占比=57/150=0.38

那么接下来要计算的是随机抽样150个家庭，出现38%的家庭接入互联网的概率是多少？

接着计算z分数=（0.38-0.3）/0.037=2.14

首先这是一个单边检验，也就是咱们要验证抽样占比的分布中，离均值右侧大于2.14的标准差的概率，用excel即可计算：

P值=(1-NORMSDIST(2.14))=0.016<0.05

说明出现H0假设是小概率事件，所以拒绝H0假设，接受H1假设-美国家庭总体的互联网接入率超过30%

PS：EXCEL函数NORMSDIST补充说明：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：非著名问天 > 《我的文件夹》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

非著名问天

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换