例1 下列命题: (1)3,3,4,4,5,5,5的众数是5; (2)3,3,4,4,5,5,5的中位数是4.5; (3)频率分布直方图中每一个小长方形的面积等于该组的频率; (4)频率分布表中各小组的频数之和等于1 以上各题中正确命题的个数是 [ ]. A.1个 B.2个 C.3个 D.4个 分析:回忆统计初步中众数、中位数、频数、频率等概念,认真分析每个命题的真假. 解:(1)数据3,3,4,4,5,5,5中5出现次数最多3次,5是众数,是真命题. (2)数据3,3,4,4,5,5,5有七个数据,中间数据是4不是4.5,是假命题. (3)由频率分布直方图中的结构知,是真命题. (4)频率分布表中各小组的频数之和是这组数据的个数而不是1,是假命题. 所以正确命题的个数是2个,应选B. 例2 选择题: (1)甲、乙两个样本,甲的样本方差是0.4,乙的样本方差是0.2,那么 [ ] A.甲的波动比乙的波动大; B.乙的波动比甲的波动大; C.甲、乙的波动大小一样; D.甲、乙的波动大小关系不能确定. (2)在频率直方图中,每个小长方形的面积等于 [ ] A.组距 B.组数 C.每小组的频数 D.每小组的频率 分析:用样本方差来衡量一个样本波动大小,样本方差越大说明样本的波动越大. 解:(1)∵0.4>0.2,∴甲的波动比乙的波动大,选A.
例3 为了了解中年人在科技队伍中的比例,对某科研单位全体科技人员的年龄进行登记,结果如下(单位:岁) 44,40,31,38,43,45,56,45,46,42,55,41, 44,46,52,39,46,47,36,50,47,54,50,39, 30,48,48,52,39,46,44,41,49,53,64,49, 49,61,48,47,59,55,51,67,60,56,65,59, 45,28. 列出样本的频率分布表,绘出频率分布直方图. 解:按五个步骤进行: (1)求数据最大值和最小值: 已知数据的最大值是67,最小值是28 ∴最大值与最小值之差为67-28=39 (2)求组距与组数: 组距为5(岁),分为8组. (3)决定分点 (4)列频分布表
(5)绘频率分布直方图:
例4 某校抽检64名学生的体重如下(单位:千克).
列出样本的频率分布表,绘出频率分布直方图. 分析:对这组数据进行适当整理,一步步按规定步骤进行. 解:(1)计算最大值与最小值的差:48-29=19(千克) (2)决定组距与组数 样本容量是64,最大值与最小值的差是19千克,如果取组距为2千克,19÷2=9.5,分10组比较合适. (3)决定分点,使分点比数据多取一位小数,第一组起点数定为28.5,其它分点见下表. (4)列频率分布表.
(5)画频率分布直方图(见图3-1)
说明: 例5 有一个容量为60的样本,(60名学生的数学考试成绩),分组情况如下表:
(1)填出表中所剩的空格; (2)画出频率分布直方图. 分析:
各组频数之和为60 各组频率之和为1 解:
因为各小组频率之和=1 所以第4小组频率=1-0.05-0.1-0.2-0.3=0.35
所以第4小组频数=0.35×60=21 第5小组频数=0.3×60=18 (2)
例6 某班学生一次数学考试成绩的频率分布直方图,其中纵轴表示学生数,观察图形,回答: (1)全班有多少学生?
(2)此次考试平均成绩大概是多少? (3)不及格的人数有多少?占全班多大比例? (4)如果80分以上的成绩算优良,那么这个班的优良率是多少? 分析:根据直方图的表示意义认真分析求解. 解:(1)29~39分1人,39~49分2人,49~59分3人,59~69分8人,69~79分10人,79~89分14人,89~99分6人. 共计 1+2+3+8+10+14+6=44(人) (2)取中间值计算
(3)前三个小组中有1+2+3=6人不及格占全班比例为13.6%. (4)优良的人数为14+6=20,20÷44=45.5%. 即优良率为45.5%. 说明:频率分布表比较确切,但直方图比较直观,这里给出了直方图,从图也可以估计出一些数量的近似值,要学会认识图形. 例7 回答下列问题:
总是成立吗? (2)一组数据据的方差一定是正数吗?
总是成立吗? (4)为什么全部频率的累积等于1? 解:(1)证明恒等式的办法之一,是变形,从较繁的一边变到较简单的一边.这 可见,总是成立. 顺水推舟,我们用类似的方法证明(3);注意
那么有
(2)对任一组数x1,x2,…,xn,方差 这是因为自然数n>0,而若干个实数的平方和为非负,那么S2是有可对等于0的 (4)设一个数组或样本的容量为n,共分为m个组,其频数分别为a1,a2,…,am,按规定,有 a1+a2+…+am=n, 而各组的频率分别a1/n,a2/n,…,am/n,因此,有
说明:在同一个问题里,我们处理了同一组数据x1,…,xn有关的两个数组f1,f2,…,fk和a1,a2,…,am,前者是说:在这组数中,不同的只有k个,而每个出现的次数分别为f1,…,fk;后者则说明这组数所占的整个范围被分成了m个等长的区间,出现在各个区间中的xi的个数分别为a1,…,am,可见,a1,…,an是f1,…fk的推广,而前面说过的众数,不过是其fi最大的那个数. 弄清研究数组x1,…,xn的有关数和概念间的联系与区别,是很重要的. 例8 回答下列问题: (1)什么是总体?个体?样本?有哪些抽样方法? (2)反映样本(或数据)数量水平的标志值有哪几个?意义是什么?怎样求? (3)反映样本(或数据)波动(偏差)大小的标志值有哪几个?怎样求?有什么区别? (4)反映样本(或数据)分布规律的数量指标和几何对象是什么?获得的一般步骤是什么? 解:这是一组概念题,我们简略回答: (1)在统计学里,把要考查对象的全体叫做总体;其中每个考查对象叫个体;从总体中抽出的一部分个体叫做总体的一个样本;样本中个体的数目,叫做样本的容量. 应指出的是,这里的个体,是指反映某事物性质的数量指标,也就是数据,而不是事物本身,因此,总体的样本,也都是数的集合. 抽样方法通常有三种:随机抽样、系统抽样和分层抽样三种,基本原则是:力求排除主观因素的影响,使样本具有较强的代表性. (2)反映样本(或数据)数量水平或集中趋势的标志值有三个,即平均数、众数和中位数.
有时写成代换形式;
有时写成加权平均的形式:
其中,又有总体平均数(总体中所有个体的平均数)和样本平均数(样本中所有个体的平均数)两种,通常,我们是用样本平均数去估计总体平均数.且一般说来,样本容量越大,对总体的估计也就越精确. (ii)众数,就是在一组数据中,出现次数最多的数.通常采用爬山法或计票画“正”法去寻找.(爬山法是:看第一个数出现次数,再看第二、三、……有出现次数比它多的,有,则“爬到”这个数,再往后看……). (iii)中位数是当把数据按大小顺序排列时,居于中间位置的一个数或两个数的平均,它与数据的排列顺序有关. 此外,还有去尾平均(去掉一个最高和一个最低的,然后平均)、总和等,也能反映总体水平. (3)反映样本(数据)偏差或波动大小的标志值有两个:
(ii)标准差:一组数据方差的平方根:
标准差有两个优点,一是其度量单位与原数据一致;二是缓解S2过大或过小的现象.方差也可用代换式简化计算:
(4)反映数据分布规律的是频率分布和它的直方图,一般步骤是: (i)计算极差=最大数-最小数;
(iii)决定分点(可用比数据多一位小数的办法);
(v)画频率分布直方图. 其中,分布表比较确切,直方图比较直观. 说明:此例很“大”,但是必要的,因为,当前大多数的中考题,很重视基本内容的表述,通过“填空”和“选择”加以考查,我们要予以扎实.而更为重要的,这些概念和方法,正是通过偶然认识必然,通过无序把握有序,通过部分估计整体的统计思想在数学中的实现. |
|
来自: 百眼通 > 《10旧版数学-446》