配色: 字号:
考点28 统计(核心考点讲与练)-2023年高考数学一轮复习核心考点讲与练(新高考专用)(解析版)
2023-05-10 | 阅:  转:  |  分享 
  
考点28 统计(核心考点讲与练)一、抽样与统计图表1.获取数据的基本途径获取数据的基本途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽
样、互联网等.(1)统计报表是指各级企事业、行政单位按规定的表格形式、内容、时间要求报送程序,自上而下统一布置,提供统计资料的一种
统计调查方式.(2)年鉴是以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书.汇辑一年内的重要时事、文献和统
计资料,按年度连续出版的工具书.2.总体、样本、样本容量要考察的对象的全体叫做总体,每一个考察对象叫做个体,从总体中被抽取的考察对
象的集体叫做总体的一个样本,样本中个体的数目叫做样本容量.3.简单随机抽样(1)定义:从元素个数为N的总体中不放回地抽取容量为n的
样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法
和随机数法.(3)应用范围:总体中的个体数较少.4.分层抽样(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几
部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样. (2)应用范围:当总体是
由差异明显的几个部分组成时,往往选用分层抽样.5.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=;第
二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方
图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.6.频率分布折线图和总体
密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增
加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.7.样本
的数字特征数字特征定义众数在一组数据中,出现次数最多的数据叫做这组数据的众数中位数将一组数据按大小依次排列,把处在最中间位置的一个
数据(或最中间两个数据的平均数)叫做这组数据的中位数平均数样本数据的算术平均数,即=方差s2=[(x1-)2+(x2-x)2+…+
(xn-x)2],其中s为标准差8.百分位数如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这
一百分位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数.二、统计案例1.变量间的相关关系(
1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看
,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归
直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做
回归直线.(2)回归直线方程的求法——最小二乘法.设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,
n),则回归直线方程=x+的系数为:称为样本点的中心.(3)相关系数①计算相关系数r,r有以下性质:|r|≤1,并且|r|越接近1
,线性相关程度越强;|r|越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与y之间具有线性相关关系,
回归直线方程有意义;否则寻找回归直线方程毫无意义.3.独立性检验(1)2×2列联表B总计An11n12n1+An21n22n2+总
计n+1n+2n其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n
21+n12+n22.(2)χ2统计量χ2=.(3)两个临界值:3.841与6.635当χ2>3.841时,有95%的把握说事件A
与B有关;当χ2>6.635时,有99%的把握说事件A与B有关;当χ2≤3.841时,认为事件A与B是无关的.1.解决分层抽样的常
用公式先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.(1)抽样比==;(2)层1的容量∶层2的容量∶层3的容量
=样本中层1的容量∶样本中层2的容量∶样本中层3的容量. 2.统计图表人类辨识影像的能力要优於辨识文字与数字的能力 ,因此我们采用
图形的方式来展现数据时,常常不我们直接观察数据要来的快.3.平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波
动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.4.独立性检验的一般步骤①
根据样本数据制成2×2列联表;②根据公式K2=计算K2的值;③查表比较K2与临界值的大小关系,作出统计判断.抽样1.(2022·福
建莆田·三模)已知某校有教职工560人,其中女职工240人,现按性别用分层抽样的方法从该校教职工中抽取28人,则抽取的男职工人数与
抽取的女职工人数之差是(?)A.2B.4C.6D.8【答案】B【分析】根据分层抽样的抽取比例计算方法,分别求出抽取人数中的男女职工
人数即可求解.【详解】抽取的女职工人数为:人抽取的男职工人数为:人则抽取的男职工人数与抽取的女职工人数之差为:人故选:B.2.(2
022·安徽·芜湖一中三模(文))某学校对高三年级800名学生进行系统抽样编号分别为001,002,…,800,若样本相邻的两个编
号为028,068,则样本中编号最大的为(?)A.778B.780C.782D.788【答案】D【分析】根据样本中两个相邻编号求出
组距和分组数,再根据系统抽样方法即可求出样本编号最大的一个.【详解】∵样本相邻的两个编号为028和068,故组距为68-28=40
,由800÷40=20知样本容量为20,系统抽样时分为20组:001-040,041-080,…,760-800,∵从第1组抽出的
数据为028,∴从第20组抽出的数据为760+28=788.故选:D.3.(2021北京市通州区高三上期中)某单位有男职工56人,
女职工42人,按性别分层,用分层随机抽样的方法从全体职工中抽出一个样本,如果样本按比例分配,男职工抽取的人数为16人,则女职工抽取
的人数为( )A.12 B.20 C.24 D.28【答案】A【分析】根据题意,结合分层抽样的计算方法,即可求解
.【详解】根据题意,设抽取的样本人数为,因男职工抽取的人数为,所以,因此女职工抽取的人数为(人).故选:A.4.(多选题)(202
2·福建南平·三模)支气管炎患者会咳嗽失眠,给患者日常生活带来严重的影响.某医院老年患者治愈率为20%,中年患者治愈率为30%,青
年患者治愈率为40%.该医院共有600名老年患者,500名中年患者,400名青年患者,则(?)A.若从该医院所有患者中抽取容量为3
0的样本,老年患者应抽取12人B.该医院青年患者所占的频率为C.该医院的平均治愈率为28.7%D.该医院的平均治愈率为31.3%【
答案】ABC【分析】由分层抽样即可判断A选项;直接计算频率即可判断B选项;直接计算平均治愈率即可判断C、D选项.【详解】对于A,由
分层抽样可得,老年患者应抽取人,正确;对于B,青年患者所占的频率为,正确;对于C,平均治愈率为,正确;对于D,由C知错误.故选:A
BC.统计图表1.(2021广东省广雅中学高三上10月月考)小张一星期的总开支分布如图①所示,一星期的食品开支如图②所示,则以下说
法正确的是( )A. 储蓄金额为300元B. 日常开支比食品中的其他开支多150元C. 娱乐开支比通信开支多50元D. 肉类开支占
总开支的【答案】ABC【分析】根据图表信息一一分析可得;【详解】解:由食品开支图,可知食品开支有元,所以一星期的总开支元,其中储蓄
金额为元,故A正确;日常开支为元,故日常开支比食品中的其他开支多150元,故B正确;娱乐开支比通信开支多元,故C正确;肉类开支占总
开支的,故D错误;故选:ABC2.(2021四川省资阳市高三第一次诊断)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚
战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019年年末全国农村贫困人口数进行了统计,制成如
下散点图:据此散点图,下面个回归方程类型中最适宜作为年末贫困人数和年份代码的回归方程类型的是( )A. B. C. D. 【答案】
A【分析】结合散点图中点的分布特征即可得出结果.【详解】由散点图可知所有的点几乎分布在一条直线上,结合选项可知选A,故选:A.3.
(2021广东省部分学校高三上11月大联考)中国互联网络信息中心(CNNIC)发布了第46次《中国互联网络发展状况统计报告》,报告
公布了截至2020年6月的中国互联网状况数据与对比数据,根据下图,下面结论不正确的是( )A. 2020年6月我国网民规模接近9.
4亿,相比2020年3月新增网民3625万B. 2020年6月我国互联网普及率达到67%,相比2020年3月增长2.5%C. 20
18年12月我国互联网普及率不到60%,经过半年后普及率超过60%D. 2018年6月我国网民规模比2017年6月我国网民规模增加
的百分比大于7%【答案】D【分析】结合图表直接判断和计算即可.【详解】对A,由图可知,新增网民数为:万,正确;对B,读图可直接判断
正确;对C,读图可直接判断正确;对D,2018年6月我国网民规模比2017年6月我国网民规模增加的比例为:,故D错误.故选:D4.
(2021山西省长治市第八中学高三上阶段性测评)随着2022年北京冬奥会临近,中国冰雪产业快速发展,冰雪运动人数快速上升,冰雪运动
市场需求得到释放,将引领相关户外用品行业市场增长.下面是2013年至2020年中国雪场滑雪人次(万人次)与同比增长率(与上一年相比
)的统计情况,则下面结论中正确的是( )A.2013年至2020年,中国雪场滑雪人次的同比增长率逐年减少B.2013年至2020年
,中国雪场滑雪人次逐年增加C.2013年至2020年,中国雪场滑雪人次的年增加量相近D.2013年到2020年,中国雪场滑雪人次在
2020年首次出现负增长【答案】D【分析】根据图中条形统计图和折线图的实际意义分析逐个判定即可.【详解】对于A,由折线图可知,20
13年至2020年,中国雪场滑雪人次的同比增长率先增长再减小,故A错误;对于B,由条形统计图知,2013年至2019年,中国雪场滑
雪人次逐年增加,但2020年减少了,故B错误;对于C,由条形图知,2013年至2020年,中国雪场滑雪人次的年增加量不相近,故C错
误;对于D,由条形图和折线图,明显看出2013年到2020年,中国雪场滑雪人次在2020年首次出现负增长,故D正确.故选:D5.(
2021河南省重点中学高三上模拟调研)茶叶源于中国,至今中国仍然是茶叶最大生产国,下图为年全球主要茶叶生产国调查数据.年全球主要茶
叶生产国产量分布根据该图,下列结论中不正确的是( )A. 年图中个国家茶叶产量的中位数为B. 年图中个国家茶叶产量比年增幅最大的是
中国C. 年图中个国家茶叶总产量超过年D. 年中国茶叶产量超过其他个国家之和【答案】B【分析】根据统计图表提供的数据判断各选项.【
详解】图中,2019年的数据中间的一个是45.9,A正确;2020年图中个国家茶叶产量比年增幅最大的是肯尼亚,B错;2020年图中
个国家茶叶总产量比年总产量的差是,C正确;年图中,D正确,故选:B.样本的数字特征1.(2021江苏苏州模拟)高铁、扫码支付、共享
单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为
x1,x2,x3,…,x100,它们的平均数为,方差为s2;其中扫码支付使用的人数分别为3x1+2,3x2+2,3x3+2,…,3
x100+2,它们的平均数为方差为s′2,则s′2分别为( )A.3+2,3s2+2 B.3,3s2C.3+2,9s2 D
.3+2,9s2+2【答案】C【解析】 由平均数的计算公式,可得数据x1,x2,…,x100的平均数为=(x1+x2+x3+…+x
100),数据3x1+2,3x2+2,…,3x100+2的平均数为:[(3x1+2)+(3x2+2)+…+(3x100+2)]=[
3(x1+x2+…+x100)+2×100]=3+2,数据x1,x2,…,x100的方差为s2=[(x1-)2+(x2-)2+…+
(x100-)2],数据3x1+2,3x2+2,…,3x100+2的方差为:{[(3x1+2)-(3+2)]2+[(3x2+2)-
(3+2)]2+…+[(3x100+2)-(3+2)]2}=[9(x1-)2+9(x2-)2+…+9(x100-)2]=9s2,故
选C.2.(2021河南省湘豫名校联盟高三上11月联考)某校为了解学生体能素质,随机抽取了名学生,进行体能测试.并将这名学生成绩整
理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是( )A. 这名学生中成绩在内的人数占比为B. 这名学生中成绩在
内的人数有人C. 这名学生成绩的中位数为D. 这名学生的平均成绩(同一组中的数据用该组区间的中点值做代表)【答案】C【分析】利用频
率分布直方图求解判断.【详解】根据此频率分布直方图,成绩在内的频率为,所以A正确;这名学生中成绩在内的人数为所以B正确;根据此频率
分布直方图,,,可得这名学生成绩的中位数,所以C错误﹔根据频率分布直方图的平均数的计算公式,可得:所以D正确.故选:C.线性回归方
程1.(多选题)(2021山东师范大学附中高三上期中)已知变量,之间的经验回归方程为,且变量,的数据如表所示,则下列说法正确的是(
)681012632A. 变量,之间呈正相关关系B. 变量,之间呈负相关关系C. 的值等于5D. 该回归直线必过点【答案】BCD
【分析】将样本点中心代入回归直线方程,得出的值,再逐一判断即可.【详解】因为,所以,故C正确;因为,所以变量,之间呈负相关关系,故
A错误,B正确;因为,所以该回归直线必过点,故D正确;故选:BCD2.(2021福建省宁德市高三上期中联考)某电子产品的成本价格由
两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:产品数x个1020304050产品总成
本(元)62688189由最小二乘法得到回归方程,则=___________.【答案】【分析】根据线性回归方程过样本中心点进行求解
即可.【详解】,,因为线性回归方程过样本中心点,所以,故答案为:3.(“超级全能生”2022届高三全国卷地区11月联考)自动驾驶汽
车依靠、人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆.近
年来全球汽车行业达成共识,认为自动驾驶代表了未来汽车行业的发展方向.实现自动驾驶是一个渐进过程,国际通用的自动驾驶标准根据自动驾驶
程度逐步提升可以分为级.级自动驾驶也是整个自动驾驶技术的分水岭.年全球渗透率(%)统计表及散点图如下.年份渗透率(%)(1)利用散
点图判断,和(其中'',为大于的常数)哪一个更适合作为渗透率和年份的回归方程模型(只要给出判断即可,不必说明理由);(2)令,求关于
的回归方程;(3)根据(2)中回归模型回答下列问题:(i)估计年全球渗透率是多少?(ii)预计至少要到哪一年,全球渗透率能超过?附
:回归直线中斜率和截距的最小二乘估计公式为,.【答案】(1)更适合 (2) (3)(i);(ii)【分析】(1)根据散点图,即可得
到更适合作为渗透率和年份的回归方程模型;(2)由,得组的对应数据,利用公式,求得的值,即可得到回归方程;(3)(i),求得,即可得
到年全球渗透率;(ii)令,即可求得到年,全球渗透率能超过.【小问1详解】解:根据散点图,可知更适合作为渗透率和年份的回归方程模型
.【小问2详解】解:由,得组的对应数据为,,,,,所以,,,,所以,则,所以关于的线性回归方程为.【小问3详解】解:(i)令,可得
,此时,所以估计年全球渗透率是.(ii)令,解得,,所以预计至少要到年,全球渗透率能超过.独立性检验1.春节期间,“厉行节约,反对
浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:分类做不到“光盘”能做到“光盘”男4
510女3015由此列联表得到正确结论是( )A.在犯错误概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在
犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过0.1的前提下,认为“该市居民能
否做到‘光盘’与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”【答案】C【分析】作出
列联表,求得,再与临界值表对比判断.【详解】列联表如下:分类做不到“光盘”能做到“光盘”总计男451055女301545总计752
5100所以,且,所以在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”.故选:C2. 单位:人学校数
学成绩合计不优秀优秀甲校乙校合计对列联表中的数据,依据的独立性检验,我们已经知道独立性检验的结论是学校和成绩无关.如果表中所有数据
都扩大为原来的倍,在相同的检验标准下,再用独立性检验推断学校和数学成绩之间的关联性,结论还一样吗?请你试着解释其中的原因.附:临界
值表:【分析】列出数据扩大倍的列联表,计算出的观测值,结合独立性检验的基本思想可出结论.【详解】数据扩大倍的列联表为:学校数学成绩
合计不优秀优秀甲校乙校合计假设学校与数学成绩无关,由列联表数据得,根据小概率值的独立性检验,我们推断假设不成立,即认为学校与数学成
绩有关,又因为甲校成绩优秀和不优秀的概率分别为,,乙校成绩优秀和不优秀的概率分别为,,又因为,所以,从甲校、乙校各抽取一个学生,甲
校学生数学成绩优秀的概率比乙校学生优秀的概率大.所以,结论不一样,不一样的原因在于样本容量,当样本容量越大时,用样本估计总体的准确
性会越高.1.(2021年全国高考甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得
到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( )A. 该地农户家庭年收入低于4.5万元的农户比率估计为6%B
. 该地农户家庭年收入不低于10.5万元的农户比率估计为10%C. 估计该地农户家庭年收入的平均值不超过6.5万元D. 估计该地有
一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【分析】根据直方图的意义直接计算相应范围内的频率,即可判定AB
D,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】
因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收
入低于4.5万元的农户的比率估计值为,故A正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;该地农户家庭年收
入介于4.5万元至8.5万元之间的比例估计值为,故D正确;该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.故选:C.【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频
率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于.2.
(2020年全国统一高考(新课标Ⅰ))某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温
度条件下进行种子发芽实验,由实验数据得到下面的散点图:由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率
y和温度x的回归方程类型的是( )A. B. C. D. 【答案】D【分析】根据散点图的分布可选择合适的函数模型.【详解】由
散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率和温度的回归方程类型的是.故选:D.【点睛】本题考查函数
模型的选择,主要观察散点图的分布,属于基础题.3.(多选题)(2021年全国新高考Ⅰ卷)有一组样本数据,,…,,由这组数据得到新样
本数据,,…,,其中(为非零常数,则( )A. 两组样本数据的样本平均数相同B. 两组样本数据的样本中位数相同C. 两组样本数据的
样本标准差相同D. 两组样本数据的样本极差相同【答案】CD【分析】A、C利用两组数据的线性关系有、,即可判断正误;根据中位数、极差
的定义,结合已知线性关系可判断B、D的正误.【详解】A:且,故平均数不相同,错误;B:若第一组中位数为,则第二组的中位数为,显然不
相同,错误;C:,故方差相同,正确;D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确;故选:CD4.(20
21年全国高考乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10
件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.1
10.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样
本方差分别记为和.(1)求,,,;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项
指标的均值较旧设备有显著提高,否则不认为有显著提高).【答案】(1);(2)新设备生产产品的该项指标的均值较旧设备有显著提高.【分
析】(1)根据平均数和方差的计算方法,计算出平均数和方差.(2)根据题目所给判断依据,结合(1)的结论进行判断.【详解】(1),,
,.(2)依题意,,,,所以新设备生产产品的该项指标的均值较旧设备有显著提高.5.(2021年全国高考甲卷)甲、乙两台机床生产同种
产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级
品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多
少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:0.0500.0100.001k3.8416.635
10.828【答案】(1)75%;60%;(2)能.【分析】根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.(2),故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.6.(2020年全国统一高
考(新课标Ⅱ))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的
200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi
和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.(1)求该地区这种野生动物数量的估计值
(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系
数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的
估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=,≈1.414.【答案】(1);(2);(3)详见解析【分析】
(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;(2)利用公式计算即可;(3)各地块间植物覆盖面积差
异较大,为提高样本数据的代表性,应采用分层抽样.【详解】(1)样区野生动物平均数为,地块数为200,该地区这种野生动物的估计值为(
2)样本(i=1,2,…,20)的相关系数为(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间
植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本
的代表性,从而可以获得该地区这种野生动物数量更准确的估计.【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考
查学生数学运算能力,是一道容易题.一、单选题1.(2022·湖南岳阳·三模)已知一组数据:的平均数是5,方差是4,则由,,和 这四
个数据组成的新数据组的方差是(?)A.16B.14C.12D.11【答案】C【分析】根据平均数、方差公式计算可得;【详解】解:由已
知得,,则新数据的平均数为,所以方差为,,故选:C.2.(2022·辽宁辽阳·二模)为了解某地高三学生的期末语文考试成绩,研究人员
随机抽取了100名学生对其进行调查,根据所得数据制成如图所示的频率分布直方图,已知不低于90分为及格,则这100名学生期末语文成绩
的及格率为(?)A.40%B.50%C.60%D.65%【答案】C【分析】利用直方图求频率即得.【详解】依题意可得及格率为.故选:
C.3.(2022·天津河北·二模)为了解中学生的身高情况,某部门随机抽取了某学校的学牛,将他们的身高数据(单位:cm)按[150
,160),[160,170),[170,180),[180,190]分组,绘制成如图所示的频率分布直方图,其中身高在区间[170
,180)内的人数为300,身高在区间[160,170)内的人数为180,则a的值为(?)A.0.03B.0.3C.0.035D.
0.35【答案】A【分析】由频率分布直方图中的数据,以及频率与频数之间的关系,列式求解即可.【详解】由频率分布直方图可得:,解得a
=0.03.故选:A4.(2022·天津一中模拟预测)某校随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50分至10
0分之间,进行适当分组画出频率分布直方图如图所示,下列说法正确的是(?)A.直方图中x的值为0.040B.在被抽取的学生中,成绩在
区间的学生数为30人C.估计全校学生的平均成绩为84分D.估计全校学生成绩的样本数据的80%分位数约为93分【答案】C【分析】根据
学生的成绩都在50分至100分之间的频率和为1可求得x值,以此判断A;计算成绩在区间[70,80)的学生频率,然后可计算该区间学生
数,以此判断B;按照频率频率分布直方图中平均数计算公式计算可判断C;按照频率分布直方图中百分位数的计算方法计算可判断D.【详解】定
义A:根据学生的成绩都在50分至100分之间的频率和为1,可得,解得x=0.03,所以A错;对于B:在被抽取的学生中,成绩在区间[
70,80)的学生数为10×0.015×400=60(人),所以B错;对于C:估计全校学生的平均成绩为55×0.05+65×0.1
+75×0.15+85×0.3+95×0.4=84(分),所以C对;对于D:全校学生成绩的样本数据的80%分位数约为 (分).所以
D错.故选:C二、多选题5.(2022·山东日照·模拟预测)我国居民收入与经济同步增长,人民生活水平显著提高.“三农”工作重心从脱
贫攻坚转向全面推进乡村振兴,稳步实施乡村建设行动,为实现农村富强目标而努力,2017年~2021年某市城镇居民、农村居民年人均可支
配收入比上年增长率如下图所示,根据下面图表、下列说法一定正确的是(?)A.对于该市居民年人均可支配收入比上年增长率的极差,城镇比农
村的小B.该市农村居民年人均可支配收入高于城镇居民C.对于该市居民年人均可支配收入比上年增长率的中位数,农村比城镇的大D.2021
年该市城镇居民、农村居民年人均可支配收入比2020年有所上升【答案】CD【分析】根据表中数据逐一判断即可.【详解】对于A:由表中数
据可知城镇居民相关数据极差较大,即选项A错误;对于B:由增长率高,得不出收入高,即选项B错误;对于C:由表中数据,可知农村居民相关
数据中位数较大,即选项C正确;对于D:由表中数据,可知增长率均为正,所以2021年该市城镇居民、农村居民年人均可支配收入比2020
年有所上升,即选项D正确.故选:CD.6.(2022·湖南岳阳·三模)下列说法正确的是(?)A.线性回归方程必过B.设具有线性相关
关系的两个变量x,y的相关系数为r,则越接近于0,x和y之间的线性相关程度越强C.在一个列联表中,由计算得的值,则的值越小,判断两
个变量有关的把握越大D.若,,则【答案】AD【分析】根据线性回归方程的特征、相关系数的性质、卡方的意义,结合正态分布的性质逐一判断
即可.【详解】因为线性回归方程必过样本中心点,所以选项A正确;因为越接近于0,x和y之间的线性相关程度越弱,所以选项B不正确;因为
的值越小,确定两个变量有关的把握的程度越小,所以选项C不正确;因为,所以,因此选项D正确,故选:AD7.(2022·重庆南开中学模
拟预测)下列命题正确的是(?)A.若且,则B.对于随机事件A和B,若,则事件A与事件B独立C.回归分析中,若相关指数越接近于1,说
明模型的拟合效果越好;反之,则模型的拟合效果越差D.用等高条形图粗略估计两类变量X和Y的相关关系时,等高条形图差异明显,说明X与Y
无关【答案】BC【分析】A由正态分布的对称性求概率;B利用条件概率公式转化判断;C、D根据相关指数的实际意义、等高条形图的性质判断
【详解】A:由,根据正态分布对称性,错误;B:由题意,即,故事件A与事件B独立,正确;C:相关指数的实际意义知:相关指数越接近于1
,说明模型的拟合效果越好;反之,则模型的拟合效果越差,正确;D:由等高条形图与列联表关系,差异明显表明X与Y相关可能很大,错误.故
选:BC8.(2022·湖北·荆门市龙泉中学一模)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研
发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:未发病发病总计未注射疫苗30注射
疫苗40总计7030100附表及公式:0.050.010.0050.0013.8416.6357.87910.828,.现从试验动
物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断正确的是(?)A.注射疫苗发病的动物数为10B.某个发病的小动物为未注射疫
苗动物的概率为C.能在犯错概率不超过0.005的前提下,认为疫苗有效D.该疫苗的有效率约为80%【答案】ABD【分析】完善列联表可
直接判断A,计算比例后判断BD,计算判断C.【详解】完善列联表如下:未发病发病总计未注射疫苗302050注射疫苗401050总计7
030100由列联表知,A正确,,B正确,,不能在犯错概率不超过0.005的前提下,认为疫苗有效,C错误;疫苗的有效率约为,D正确
.故选:ABD.三、填空题9.(2022·福建龙岩·模拟预测)已知变量y关于x的回归方程为,若对两边取自然对数,可以发现与x线性相
关,现有一组数据如下表所示,时,预测y值为___________.x1234ye【答案】【分析】对两边取对数,得 令则,利用对称中
心点在函数图象上即得,进而确定解析式,求出预测值.【详解】对两边取对数,得 令则x1234yez1346 代入得故故,当时,故答案
为:四、解答题10.(2022·广东·普宁市华侨中学二模)某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面
积与相应的管理时间的关系如下表所示:土地使用面积(单位:亩)管理时间(单位:月)调查了某村名村民参与管理的意愿,得到的部分数据如下
表所示;愿意参与管理不愿意参与管理男性村民女性村民(1)做出散点图,判断土地使用面积与管理时间是否线性相关;并根据相关系数说明相关
关系的强弱.(若,认为两个变量有很强的线性相关性,值精确到) .(2)若以该村的村民的性别与参与管理意风的情况估计贫困县的情况,且
每位村民参与管理的意互不影响,则从该贫困县村民中任取人,记取到不愿意参与管理的女性村民的人数为,求的分布列及数学期望.参考公式:?
参考数据:【分析】(1)由已知数据做出散点图,根据散点图可判断出土地使用面积与管理时间是否线性相关,计算出相关系数可判断出两个变量
是否有很强的线性相关性;(2)记取到不愿意参与管理的女性村民的人数为,求出的取值可得分布列及数学期望.(1)散点图如上图,由散点图
可知,土地使用面积与管理时间线性相关.因为,,,,,所以相关系数,故土地使用面积与管理时间线性相关性很强.(2)由题意可知,调查名
村民中不愿意参与管理的女性村民人数名,从该贫困县村民中任取一人,取到不愿意参与管理得到女性村民的概率为,的所有可能取值为,,,,,
的分布列0123数学期望.11.(2022·湖南·雅礼中学二模)“不关注分数,就是对学生的今天不负责:只关注分数,就是对学生的未来
不负责.”为锻炼学生的综合实践能力,长沙市某中学组织学生对雨花区一家奶茶店的营业情况进行调查统计,得到的数据如下:月份x24681
012净利润(万元〕y0.92.04.23.95.25.1(1)设.试建立y关于x的非线性回归方程和(保留2位有效数字);(2)从
相关系数的角度确定哪一个模型的拟合效果更好,并据此预测次年2月()的净利润(保留1位小数).附:①相关系数,回归直线中斜率和截距的
最小二乘估计公式分别为;②参考数据:,【答案】(1)和;(2)模型的拟合效果更好,次年2月净利润为万元【分析】(1)根据数据和公式
直接计算可得;(2)根据数据和公式计算出相关系数即可求出.(1),,,,所以,,所以模型的方程为,,,,所以,,所以模型的方程为;
(2),所以,,因为更接近1,所以模型的拟合效果更好,则次年2月净利润为万元.12.(2022·重庆南开中学模拟预测)公众号“山城
学术圈”根据统计局统计公报提供的数据,对我国2015—2021年的国内生产总值GDP进行统计研究,做出如下2015—2021年GD
P和GDP实际增长率的统计图表.通过统计数据可以发现,GDP呈现逐年递增趋势.2020年,GDP增长率出现较明显降幅,但GDP却首
次突破100万亿.现统计人员选择线性回归模型,对年份代码x和年度实际GDP增长率进行回归分析.年份2015年2016年2017年2
018年2019年2020年2021年年度GDP(亿元)688858.2746395.1832035.9919281.198651
5.21015986.21143669.7年份代码x1234567GDP实际增长率7.06.86.96.76.02.38.1(1)
用第1到第7年的数据得到年度实际GDP增长率关于年份代码x的回归方程近似为:,对该回归方程进行残差分析,得到下表,视残差的绝对值超
过1.5的数据为异常数据.年份代码x1234567GDP实际增长率7.06.86.96.76.02.38.1GDP增长率估计值6.
986.506.266.025.54残差0.020.400.74-0.022.56将以上表格补充完整,指出GDP增长率出现异常数据
的年份及异常现象,并根据所学统计学知识,结合生活实际,推测GDP增长率出现异常的可能原因;(2)剔除(1)中的异常数据,用最小二乘
法求出回归方程:,并据此预测数据异常年份的GDP增长率.附:,【分析】(1)根据实际GDP增长率关于年份代码x的回归方程近似为:和
残差的定义求解; (2)先求得,进而得到,写出回归直线方程求解.(1)解:年份代码x1234567GDP实际增长率7.06.86.
96.76.02.38.1GDP增长率估计值6.986.746.506.266.025.785.54残差0.020.060.400
.74-0.02-3.482.56由视残差的绝对值超过1.5的数据为异常数据,则2020年份估计值远远大于实际值,2021年份估计
值远远小于实际值,由于2020年疫情经济受到很大的影响,实际增长下滑,2021年份,国家采取措施,刺激经济增长;(2)因为, ,,
所以,,所以回归直线方程为,当时,,当时,.13.(2022·辽宁·二模)第24届冬季奥林匹克运动会于2022年2月4日在北京开幕
.吉祥物“冰墩墩”以其可爱的外形迅速火爆出圈,其周边产品更是销售火热,甚至达到“一墩难求”的现象某购物网站为了解人们购买“冰墩墩”
的意愿,随机对90个用户(其中男30人,女60人)进行问卷调查,得到如下列联表和条形图:有购买意愿没有购买意愿合计男女合计如果从这
90人中任意抽取1人,抽到“有购买意愿”的概率为.(1)完成上述列联表,并回答是否有的把握认为“购买意愿”与“性别”有关?(2)若
以这90个用户的样本的概率估计总体的概率,现再从该购物网站所有用户中,采用随机抽样的方法每次抽取1名用户,抽取4次,记被抽取的4名
用户对“冰墩墩”有购买意愿的人数为X,若每次抽取的结果是相互独立的,写出X的分布列,并求期望和方差.参考公式:,其中.临界值表:0
.100.050.0100.0050.0012.7063.8416.6357.87910.828【答案】(1)列联表见解析,没有的
把握认为“购买意愿”与“性别”有关;(2)分布列见解析,,.【分析】(1)根据已知条件写出列联表,利用卡方公式求卡方值并与参考值比
较,根据独立检验的基本思想判断结论;(2)由题设有的可能值为{0,1,2,3,4}且,利用二项分布概率公式求各可能值的概率,进而写
出分布列,应用二项分布的期望方差公式求期望和方差.(1)由题意,有购买意愿的人数为人,列联表如下:有购买意愿没有购买意愿合计男16
1430女441660合计603090则,所以没有把握认为“购买意愿与性别”有关.(2)由题意,抽取到对“冰墩墩有购买意愿”的概率
是,的可能值为{0,1,2,3,4}且,,,,从而X的分布列为X01234P期望为,方差为.14.(2022·福建福州·三模)某种
疾病可分为,两种类型,为了解该疾病的类型与患者性别是否相关,在某地区随机抽取了若干名该疾病的患者进行调查,发现女性患者人数是男性患者的2倍,男性患型疾病的人数占男性患者的,女性患型疾病的人数占女性患者的.(1)若本次调查得出“在犯错误的概率不超过0.005的前提下认为‘所患疾病的类型’与‘性别’有关”的结论,求被调查的男性患者至少有多少人?(2)某团队进行预防型疾病的疫苗的研发试验,试验期间至多安排2个周期接种疫苗,每人每个周期接种3次,每次接种费用为元.该团队研发的疫苗每次接种后产生抗体的概率为,如果一个周期内至少2次出现抗体,则该周期结束后终止试验,否则进人第二个周期.若,试验人数为1000人,试估计该试验用于接种疫苗的总费用.,0.100.050.010.0050.0012.7063.8416.6357.87910.828【答案】(1)12人(2)元【分析】(1)设男性患者有人,可得出列联表,计算出卡方值,列出不等式可求解;(2)可得该试验每人的接种费用可能取值为,,求出概率即可得出.(1)设男性患者有人,则女性患者有人,列联表如下:型病型病合计男女合计假设:患者所患疾病类型与性别之间无关联,根据列联表中的数据,经计算得到,要使在犯错误的概率不超过0.005的前提下认为“所患疾病类型”与“性别”有关,则,解得,因为,,所以的最小整数值为12,因此,男性患者至少有12人.(2)设该试验每人的接种费用为元,则的可能取值为,.则,,所以,因为,试验人数为1000人,所以该试验用于接种疫苗的总费用为,即元.15.(2022·辽宁·二模)某初中为了了解学生对消防安全知识的掌握情况,开展了网上消防安全知识考试.对参加考试的男生、女生各随机抽查40人,根据考试成绩,得到如下列联表:男生女生合计考试成绩合格302050考试成绩不合格102030合计404080(1)根据上面的列联表,判断能否有95%的把握认为考试成绩是否合格与性别有关;(2)在考试成绩不合格的30人中按性别利用分层抽样的方法随机抽取6人,再从这6人中随机抽取3人,记这3人中男生的人数为X,求X的分布列和数学期望.附,其中.0.10.050.010.0050.001k2.7063.8416.6357.87910.828【答案】(1)有95%的把握认为考试成绩是否合格与性别有关;(2)分布列见解析,1【分析】(1)直接计算,再和3.841比较即可;(2)先由分层抽样计算出男女生人数,再分别计算X为0,1,2的概率,列出分布列计算期望即可.(1)由..故有95%的把握认为考试成绩是否合格与性别有关;(2)考试成绩不合格的30人,男生:女生为1:2,这6个中男生有2人,女生有4人,可得X的可能取值为0,1,2,有,,,故随机变量X的分布列为X012P有
献花(0)
+1
(本文系潜水多年原创)