第十二章 统计
12.1抽样方法
一、知识导学
1.抽签法: (1)将总体中的所有个体编号(号码可以从1到N); (2)将1到N这N个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作); (3)将号签放在同一箱中,并搅拌均匀; (4)从箱中每次抽出1个号签,并记录其编号,连续抽取k次; (5)从总体中将与抽到的签的编号相一致的个体取出. 2.随机数表法: (1)对总体中的个体进行编号(每个号码位数一致); (2)在随机数表中任选一个数作为开始; (3)从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满为止; (4) 根据选定的号码抽取样本. 3.系统抽样(等距抽样): (1)采用随机的方式将总体中的个体编号; (2)将整个的编号按一定的间隔(设为k)分段,当 (3)在第一段中用简单随机抽样确定起始的个体编号 (4)将编号为 4.分层抽样: (1)将总体按一定标准分层; (2)计算各层的个体数与总体的个数的比; (3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量; (4)在每一层进行抽样(可用简单随机抽样或系统抽样).
二、疑难知识导析
1.简单随机抽样是从总体中逐个不放回地抽取. 2.简单随机抽样和系统抽样都是一种等概率抽样,即每个个体被抽到的可能性都是相同的. 3.简单随机抽样适用于总体中个体较少的情况;系统抽样适用于总体中个体数较多的情形;分层抽样用于总体由几个差异明显的部分组成的情况. 4. 分层抽样时,在每一层内进行抽样时可根据具体情况,采用简单随机抽样或系统抽样. 5. 在使用分层抽样时,在每一层内抽样的比例相同.
三、经典例题导讲
[例1]某工厂生产A,B,C,D四种不同型号的产品,产品数量之比依次为2:3:5:1,现用分层抽样方法抽出一个容量为n的样本,样本中A型号有16件,那么此样本容量n是多少? 错解:样本容量16 错因:混淆了A型号产品与样本容量的比例关系. 正解:在分层抽样中,每一层所抽的个体数的比例与总体中各层个体数的比例是一致的,所以,样本容量为 答:此样本容量为88件. [例2]从1002名学生中选取100名进行抽样检查.请用系统抽样法设计一种方案,叙述其步骤. 解:(1)将1002名学生进行编号,号码分别为1,2,……,1002; (2)用随机数表法剔除2个个体,并将剩下的学生重新编号,号码分别为1,2,……1000; (3)将1000个号码平均分成100组,并在第一组1,2,……,10中用简单随机抽样法确定一个号码(如 (2)
将号码为 [例3]某学校有2005名学生,从中选取20人参加学生代表大会,采用简单随机抽样方法进行抽样,是用抽签法还是随机数表法?如何具体实施? 分析:由于学生人数较大,制作号签比较麻烦,所以决定用随机数表法 解:采用随机数表法 实施步骤: (1) 对2005名同学进行编号,0000-2004 (2) 在随机数表中随机地确定一个数作为开始,如21行45列的数字9开始的4位:9706;依次向下读数,5595,4904,………,如到最后一行,转向左边的四位数字号码,并向上读,凡不在0000-2004范围内的,则跳过,遇到已读过的数也跳过,最后得到号码为:0011,0570,1449,1072,1338,0076,1281,1866,1349,0864,0842,0161,1839,0895,1326,1454,0911,1642,0598,1855的学生组成容量为20的样本. [例4]某工厂有3条生产同一产品的流水线,每天生产的产品件数分别是3000件,4000件,8000件.若要用分层抽样的方法从中抽取一个容量为150件产品的样本,应该如何抽样? 解:总体中的个体数N=3000+4000+8000=15000 样本容量n=150 抽样比例为 所以应该在第一条流水线生产的产品中随机抽取3000 在第二条流水线生产的产品中随机抽取:4000 在第三条流水线生产的产品中随机抽取:5000 这里因为每条流水线所生产的产品数都较多,所以,在每条流水线的产品中抽取样品时,宜采用系统抽样方法。
四、典型习题导练
1.为了解某班50名同学的会考及格率,从中抽取10名进行考查分析,则在这次考查中,考查的总体内个体总数为 样本容量为 .
4.用分层抽样的方法在一个企业中抽取一个样本容量为50的样本,其中在管理营销部门抽了15人,技术部门10人,其余在生产工人中抽取,已知该企业有生产工人375人,那么这个企业共有多少职工? 5.采用简单随机抽样从含有5个人的身高的总体
12.2频率分布直方图、折线图与茎叶图
一、知识导学
1.频率分布表:反映总体频率分布的表格. 2.一般地,编制频率分布表的步骤如下:(1)求全距,决定组数和组距,组距= 3. 频率(分布)直方图:利用直方图反映样本的频率分布规律. 4. 一般地,作频率分布直方图的方法为:(1)把横轴分成若干段,每一线段对应一个组的组距;(2)以此线段为底作矩形,它的高等于该组的 5. 频率折线图:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起,就得到一条折线,称这条折线为本组数据的频率折线图. 6. 制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.
二、疑难知识导析
1. 在编制频率分布表时,要选择适当的组距和起始点才可以使频率分布表更好地反映数据的分布情况. 2. 在编制频率分布表时,如果取全距时不利于分组(如不能被组数整除),可适当增大全距,如在左右两端各增加适当范围(尽量使两端增加的量相同). 3. 频率折线图的优点是它反映了数据的变化趋势,如果将样本容量取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线. 4. 茎叶图对于分布在0~99的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地表示原始数据的信息. 5. 在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图.
三、典型例题导讲
[例1](06全国卷)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人用再用分层抽样方法抽出100人作进一步调查,则在 解析:由直方图可得 按分层抽样应抽出 点评:频率分布直方图中,关健要理解图中数据的意义,特别是图中每个小矩形的面积才是这一组距内个体的频率. [例2]从有甲乙两台机器生产的零件中各随机抽取15个进行检验,相关指标的检验结果为: 甲:534,517,528,522,513,516,527,526,520,508,533,524,518,522,512 乙:512,520,523,516,530,510,518,521,528,532,507,516,524,526,514 画出上述数据的茎叶图 错解: 错因:对于两位数是将两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,对于三位数字,应该把前两位数字作为茎,最后一位数字作为叶,然后从图中观察数据的分布情况,而不是仍考虑两位数,尽管此题的效果一样. 正解:用前两位数作为茎,茎叶图为 从图中可以看出,甲机床生产的零件的指标分布大致对称,平均分在520左右,中位数和众数都是522,乙机床生产的零件的指标分布也大致对称,平均分也在520左右,中位数和众数分别是520和516,总的看,甲的指标略大一些. [例3]在绘制频率分布直方图的第三个矩形时,矩形高度 ① 与这个矩形的宽度(组距)有关; ② 与样本容量n无关; ③ 与第三个分组的频数有关; ④ 与直方图的起始点无关. 以上结论中正确的共有() A.0个 B.1个 C. 2个 D.3个 错解:D. 错因:起始点与组距均影响第三组的频数,所以矩形高度与以上各因素均有关,①③正确,正解:C. [例4]根据中国银行的外汇牌价,2005年第一季度的60个工作日中,欧元的现汇买入价(100欧元的外汇可兑换的人民币)的分组与各组频数如下:〔1050,1060〕:1,〔1060,1070〕:7,〔1070,1080〕:20,〔1080,1090〕:11,〔1090,1100〕:13,〔1100,1110〕:6,〔1110,1120〕:2. (1)列出欧元的现汇买入价的频率分布表;(2)估计欧元的现汇买入价在区间1065~1105内的频率;(3)如果欧元的现汇买入价不超过x的频率的估计值为0.95,求此x 解:(1)欧元的现汇买入价的频率分布表为:
(2)欧元现汇买入价在区间1065~1105内的频率的估计值为 (3)因为0.017+0.117+0.333+0.183+0.217=0.867〈0.95,0.017+……+0.217+0.100=0.967〉0.95,所以 [例5]初一年级某班期中考试的数学成绩统计如下:
如果80分以上(包括80分)定为成绩优秀,60分以上(包括60分)定为成绩及格.那么,在这个班级的这次成绩统计中,成绩不及格的频率是多少?成绩及格的频率是多少?成绩优秀的频率是多少? 解:被统计的对象(参加这次考试的本班学生)共有2+6+12+21+7+2=50个.60分以上的有48个,80分以上的有20个,所以成绩不及格的频率是 说明 要计算一组数据中某个对象的频率,要先计算数据的总的个数,再计算符合这个对象要求的数据的个数.某个对象可以是一个确定的数据,也可以是在某一范围内数据的总数. [例6]在英语单词frequency和英语词组relative frequency中,频数最大的各是哪个字母?它们的频数和频率各是多少? 解:在frequency和英语词组relative frequency中,频数最大的字母都是e,在单词frequency中,e的频数是2,频率是 点评:在两组数据中,同一个对象的频数相等,但频率不一定相等,频数大,不一定频率大.在同一组数据中,某两个对象的频数相等,频率也相等;频数大,频率也大.
四、典型习题导练
1.(06年重庆卷)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为 根据上图可得这100名学生中体重在 A. 20 B.30 C.40 D. 50 2. 一个容量为800的样本,某组的频率为6.25%,则这一组的频数是 3. 某校随机抽取了20名学生,测量得到的视力数据如下:4.7,4.2,5.0,4.1,4.0,4.9,5.1,4.5,4.8,5.2,5.0,4.0,4.5,4.8,4.7,4.8,4.6,4.9,5.3,4.0 (1) 列出频率分布表(共分5组) (2) 估计该校学生的近视率(视力低于4.9) 4. 用一个容量为200的样本制作频率分布直方图时,共分13组,组距为6,起始点为10,第4组的频数为25,则直方图中第4个小矩形的宽和高分别是多少? 5. 200名学生某次考试的成绩的分组及各组频率如下表:
6.某地随机检查了140名成年男性红细胞(
(1)完成上面的频率分布表 (2)根据上面的图表,估计成年男性红细胞数在正常值(4.0~5.5)内的百分比 7.名著《简爱》的中英文版本中,第一节部分内容每句句子所含单词(字)数如下:英文句子所含单词数10,52,56,40,79,9,23,11,10,21,30,31;中文句子所含字数11,79,7,20,63,33,45,36,87,9,11,37,17,18,71,75,51. (1)作出这些数据的茎叶图; (2)比较茎叶图,你能得到什么结论? |
|