配色: 字号:
05抽样估计分析
2022-04-15 | 阅:  转:  |  分享 
  
05抽样估计分析《统计与数据分析基础》目录/Contents5.15.2抽样与抽样估计概述5.3参数估计与样本量的确认课堂实训——小区居民
用电分析5.1.1抽样的方法抽样是指从需要分析的总体中抽取一部分作为样本的行为,其目的是对样本进行分析、研究,通过抽样估计来推
断总体的情况。抽样的方法5.1.1抽样的方法2.系统抽样4.整群抽样1.简单随机抽样(1)等概率系统抽样(2)不等概率系
统抽样整群抽样是指将所有总体单位分割为若干群组,然后从中随机抽取一部分群,对这些群中的所有单位进行统计分析的方法。(1)重复抽样(
2)不重复抽样5.多阶段抽样3.分层抽样多阶段抽样又叫多级抽样,是指在抽取样本时,分为两个及两个以上的阶段从总体中抽取样本的方
法。(1)比例分层抽样(2)加权比例抽样5.1.2抽样分布中涉及的基本概念1.样本容量和样本个数样本容量也叫样本量,指的是样
本中所包含的单位数量,通常用表示;样本个数则是指从总体中可能抽取的样本组合数。注意:采取不同的抽样方法,得到的样本个数是可能不同的
。例如,从总体N个单位中,随机抽取n个单位构成一个样本,如果采用重复抽样的方法,则可以抽取的样本个数为,如果采用不重复抽样
的方法,则可以抽取的样本个数为。假设总体包含5个单位,如果采用重复抽样的方法抽取容量为2的样本,则可能的样本个数;如果采用不重复抽
样的方法抽取容量为2的样本,则可能的样本个数个。?5.1.2抽样分布中涉及的基本概念2.总体参数与样本统计量总体参数主
要用来描述总体的数量特征值,包括总体均值μ、总体比例π和总体标准差σ等,如图5-2所示。样本统计量主要用来描述样本的数
量特征值,包括样本均值ˉx、样本比例p和样本标准差s等,如图5-3所示。5.1.2抽样分布中涉及的基本概念2.总体参数
与样本统计量参数总体样本均值参数总体样本均值的标准差比例;;比例的标准差参数总体样本均值参数总体样本均值的标准差比例比例的标准差5
.1.3样本统计量的抽样分布1.样本均值的抽样分布将样本平均数的全部可能取值与其出现的频率依次排列,便形成样本均值的抽样分布
。同样假设总体包含5个单位,分别为1、2、3、4、5,如果采用重复抽样的方法抽取容量为2的样本,则采取重复抽样和不重复抽样的结果,
如表5-4所示。项目重复抽样不重复抽样2510所有可能的样本1,12,13,14,15,11,22,23,
24,25,21,32,33,34,35,31,42,43,44,45,41,52,5
3,54,55,51,22,33,44,51,32,43,50,01,42,50,0
0,01,50,00,00,01.01.52.02.53.01.52.02.53.0
3.52.02.53.03.54.02.53.03.54.04.53.03.54.04
.55.01.52.53.54.52.03.04.00,02.53.50,00,03.0
0,00,00,0项目重复抽样不重复抽样样本个数2510所有可能的样本1,12,13,14,15,11,
22,23,24,25,21,32,33,34,35,31,42,43,44,45
,41,52,53,54,55,51,22,33,44,51,32,43,50,01,4
2,50,00,01,50,00,00,0样本均值1.01.52.02.53.01.5
2.02.53.03.52.02.53.03.54.02.53.03.54.04.53
.03.54.04.55.01.52.53.54.52.03.04.00,02.53.
50,00,03.00,00,00,05.1.3样本统计量的抽样分布对于样本均值的抽样分布而言,其特征主要
取决于数学期望和方差这两个变量。?(1)数学期望是指实验中每次可能结果的概率乘以其结果的总和,它可以反映随机变量平均取值的大小,是
最基本的数学特征之一。假设总体包含N个单位,其均值为μ,方差为,从中抽取容量为n的样本,则样本均值的数学期望的计算公式
如下。?(2)在重复抽样的条件下,样本均值的方差和标准差的计算公式如下。方差:标准差:在不重复抽样的条件下,样本均值的方差和标准差
的计算公式如下。方差:标准差:此时,样本均值的抽样分布可以记作,读作:样本均值服从均值为μ、方差为的正态分布。?5.
1.3样本统计量的抽样分布2.样本比例的抽样分布【实验室】抽样分析小区物业费缴纳情况某小区物业今年收到的物业费缴纳数量约占整
个小区业主数量的70%,现从所有业务中随机抽取100户,试分析物业费缴纳的抽样分布情况。首先分析样本是否属于大样本。由于n=100
,p=70%,所以n?p=100×0.7=70>5。同时,n?(1-p)=100×(1-0.7)=30>5。所以可以认为该样本容
量足够大,属于大样本,从而其分布情况可以用正态分布来描述。此时可以分别计算出样本比例的数学期望和抽样方差。?样本比例的数学期望样本
比例的抽样方差因此可以说,该案例的样本比例p服从均值为0.7、方差为0.0021的正态分布,记作p~N(0.7,0.0021)
。目录/Contents5.15.2抽样与抽样估计概述5.3参数估计与样本量的确认课堂实训——小区居民用电分析5.2.1点估计
点估计是用某一个样本统计量的值作为总体参数的估计值。无偏性:无偏性是指用来估计总体参数的样本统计量,其分布是以总体参数真值为中心的
,在一次具体的抽样估计中,估计值或大于或小于总体参数,但在多次重复抽样估计的过程中,所有估计值的平均数应该等于待估计的总体参数。有
效性:有效性是指在同一总体参数的两个无偏估计量中,方差越小的估计量对总体参数的估计越准确。一致性:一致性是指随着样本容量的增加,点
估计值的值越来越接近总体参数的真值,即一个大样本给出的估计量比一个小样本给出的估计量更接近总体参数。5.2.2区间估计01OP
TION区间估计区间估计是指在给定置信水平(1-α)的条件下,以点估计值为中心构建总体参数的一个估计区间(或置信区间)。它不
同于点估计,不能确定总体参数具体的值,但可以确定用多大概率(即置信水平)保证置信区间包含总体参数的问题。02OPTION2.置信
区间置信区间即在一定置信水平下总体参数的估计区间,区间中的最小值称为置信下限,最大值称为置信上限。置信区间可以表示为“点估计值±边
际误差”,如图5-5所示。5.2.2区间估计3.边际误差?边际误差也叫抽样极限误差或允许误差,是指在抽样估计时,根据分析对象
的变异程度和具体要求确定的可允许的误差范围,它等于样本统计量可允许变动的上限或下限与总体参数之差的绝对值。决定边际误差大小的因素主
要包括抽样标准差和抽样估计的置信水平(1-α)。?(1)抽样标准差(2)抽样估计的置信水平(1-α)置信水平也叫置信系数
、置信概率或置信度,是指在给定的置信区间包含未知总体参数的概率。其中,α是事先确定的一个风险值,即置信区间不包含总体真值的概率,
(1-α)则是置信区间包含总体真值的概率。5.2.2区间估计4.临界值与置信区间正态分布的临界值为z_(α?2),
在给定的置信水平下,z_(α?2)值可以通过查正态分布分位数表获取(见本书附录)。置信水平越高,临界值越大;置信水平越低,临界
值越小。总体均值的置信区间可表示为:?或表示为:?同理,总体比例的置信区间可表示为:或表示为:?5.2.3总体均值的区间估计?
当总体服从正态分布且总体方差已知,或总体方差未知但为大样本时,样本均值的抽样分布服从正态分布,其均值为μ,方差为。此时,总体
均值μ的置信区间如下。常用的置信水平及其对应的值如表所示。90%0.11.64590%95%0.051.9695%99%0.0
12.5899%置信水平在正态曲线下对应的面积90%0.11.64590%95%0.051.9695%99%0.012.5899
%5.2.3总体均值的区间估计【实验室】估计学生方便面用量的置信区间某食品有限公司对当地在校大学生每月的方便面用量进行了调查,
100位学生的样本调查结果为平均每位大学生的方便面用量为4.9包,标准差为3.5包,若置信水平为95%,估计当地在校大学生平均每月
的方便面用量的置信区间。?此案例n=100,属于大样本,样本均值服从正态分布。总体标准差σ未知,用样本标准差s代替。其
他已知条件包括ˉx=4.9,s=3.5,置信水平(1—α)=95%,由表5-6得知,=1.96。则该案例的置信区间如下
。也就是说,该地区在校大学生平均每月方便面用量的置信区间为4.21~5.59包,对此结果的把握程度为95%。5.2.4总体比例
的区间估计?总体比例π在置信水平为(1-α)时的置信区间,具体如下 若总体比例未知,可用样本比例代替如下。若抽样方式为
不重复抽样,则需要用到修正系数,此时总体比例在水平下的置信区间如下。5.2.4总体比例的区间估计【实验室】估计愿意升级5G的用
户比例某通讯集团对某市用户进行随机调查,询问是否有意愿将网络升级为5G,随机调查的50位用户当中,有30位用户愿意对当前网络进行升
级。估计该市用户中愿意升级为5G网络的用户占比,置信水平为95%。?此案例中,已知,,则,同时,,所以该样本属于大样本,服从正态分
布。置信水平=95%,由表5-6得知,=1.96。总体比例未知时可由样本比例代替。因此,该案例的置信区间如下。也就是说,该地区大
约有46%~74%的用户愿意升级5G网络,对此结果的把握程度为95%。5.2.5样本量的确认1.影响样本量的主要因素概率保证
程度总体变异程度抽样方法抽样组织方式允许误差5.2.5样本量的确认2.均值估计时样本量的确定?在简单随机抽样的条件下,重复抽
样时,均值估计样本量的计算公式如下。AB不重复抽样时,均值估计样本量的计算公式如下。其中,若总体方差未知,可用样本方差代替。?5.
2.5样本量的确认【实验室】分析飞机延误时间时需要抽样的班次数量某航空公司想了解飞机延误的时间,假设所有班次的飞机延误时间的标
准差为21分钟,要求估计的误差不超过5分钟,置信水平为95%,试确定重复抽样应抽取的样本量。若全年有4800次航班,在不重复抽样
的条件下,又应该抽取多大的样本量。?此案例中,已知=21,=5,由=95%,可知=1.96,则重复抽样需抽取的样本量为:另外还已知
=4800,则不重复抽样需抽取的样本量为:5.2.5样本量的确认3.比例估计时样本量的确定?在简单随机抽样的条件下,重复抽
样时,比例估计样本量的计算公式如下。AB不重复抽样时,比例估计样本量的计算公式如下。其中,若总体方差未知,可用样本方差代替。?5.
2.5样本量的确认【实验室】确定需要抽查的手机数量某品牌手机的合格率为92%,现需要对新进的一批商品进行检查,若要求边际误差不
超过5%,置信水平为99%,试确定重复抽样应该抽取的样本量。若这批手机共有4000台,在不重复抽样的条件下,又应该抽取多大的样本
量。?此案例中,已知=0.92,=0.05,由=99%,可知=2.58,在总体方差未知时,用样本方差代替,则重复抽样需抽取的样本量
为:另外还已知=4000,则不重复抽样需抽取的样本量为:目录/Contents5.15.2抽样与抽样估计概述5.3参数估计与样本
量的确认课堂实训——小区居民用电分析5.3.1实训目标及思路某市供电局对某小区居民每月用电量进行抽样估计,随机从该小区中抽取出
100户的每月电费数据,在置信水平为95%的条件下,希望估算出该小区所有居民每月的电费支出情况以及电费高于80元的居民比例。可见,本次实训属于大样本的抽样估计,可以认为样本服从正态分布,因此可以利用总体均值的区间估计和总体比例的区间估计方法进行操作,具体操作思路如图5-7所示。5.3.2操作方法TOP1:选择分析工具TOP2:设置描述统计参数5.3.2操作方法TOP3:选择函数TOP4:设置函数参数5.3.2操作方法TOP5:计算置信下限的值TOP6:计算置信上限的值5.3.2操作方法TOP7:选择函数TOP8:设置函数参数?TOP9:计算样本比例5.3.2操作方法TOP10:计算置信下限的值TOP11:计算置信上限的值
献花(0)
+1
(本文系太好学原创)