§10.8 概率与统计的综合问题题型一 频率分布直方图与分布列的综合问题 例1 2022年是中国共产主义青年团成立100周年,为引导和带动青少年重温共青团百年光辉历程,某校组织全体学生参加共青团百年历史知识竞赛,现从中随机抽取了100名学生的成绩组成样本,并将得分分成以下6组:[40,50),[50,60),[60,70),…,[90,100],统计结果如图所示. (1)试估计这100名学生得分的平均数; (2)从样本中得分不低于70分的学生中,用比例分配的分层随机抽样的方法选取11人进行座谈,若从座谈名单中随机抽取3人,记其得分在[90,100]的人数为ξ,试求ξ的分布列和均值; (3)以样本估计总体,根据频率分布直方图,可以认为参加知识竞赛的学生的得分X近似地服从正态分布N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2,经计算s2=42.25.现从所有参加知识竞赛的学生中随机抽取500人,若这500名学生的得分相互独立,试问得分高于77分的人数最有可能是多少? 参考数据:若随机变量X~N(μ,σ2),则P(μ-σ≤X≤μ+σ)≈0.682 7,P(μ-2σ≤X≤μ+2σ)≈0.954 5,P(μ-3σ≤X≤μ+3σ)≈0.997 3. 解 (1)估计这100名学生得分的平均数为10×(45×0.010+55×0.015+65×0.020+75×0.030+85×0.015+95×0.010)=70.5. (2)从样本中得分不低于70分的学生中,用比例分配的分层随机抽样的方法选取11人进行座谈,其中得分在[90,100]的人数为×11=2. 若从座谈名单中随机抽取3人,记其得分在[90,100]的人数为ξ,则ξ的所有可能取值为0,1,2. P(ξ=0)==, P(ξ=1)==, P(ξ=2)==, 则ξ的分布列为
所以E(ξ)=0×+1×+2×=. (3)由题意知,μ=70.5,σ2=s2=42.25,σ=6.5. P(X>77)=P(X>μ+σ)=≈0.158 65, 所以这500名学生得分高于77分的人数最有可能为0.158 65×500≈79. 思维升华 高考常将频率分布直方图与分布列等交汇在一起进行考查,解题时要正确理解频率分布直方图,能利用频率分布直方图正确计算出各组数据.概率问题以计算为主,往往和实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来. 跟踪训练1 (2023·济南模拟)从某企业的某种产品中随机抽取100件,测量这些产品的一项质量指标值,由测量结果制成如图所示的频率分布直方图. (1)求这100件产品质量指标值的样本平均数(同一组数据用该区间的中点值作代表); (2)已知某用户从该企业购买了3件该产品,用X表示这3件产品中质量指标值位于[35,45]内的产品件数,用频率估计概率,求X的分布列. 解 (1)由已知得,=10×0.015×10+20×0.040×10+30×0.025×10+40×0.020×10=25. (2)因为购买一件产品,其质量指标值位于[35,45]内的概率为0.2, 所以X~B(3,0.2),因为X的所有可能取值为0,1,2,3, 所以P(X=0)=(1-0.2)3=0.512, P(X=1)=C×0.2×(1-0.2)2=0.384, P(X=2)=C×0.22×(1-0.2)=0.096, P(X=3)=0.23=0.008, 所以X的分布列为
题型二 回归模型与分布列的综合问题 例2 (2022·德州模拟)工信部发布的《“十四五”促进中小企业发展规划》中明确提出建立“百十万千”的中小企业梯度培育体系,引导中小企业走向“专精特新”“小巨人”“隐形冠军”的发展方向,“专精特新”是指具备专业化、精细化、特色化、新颖化优势的中小企业.下表是某地2017-2021年新增企业数量的有关数据:
(1)请根据表中所给的数据,求出y关于x的经验回归方程,并预测2023年此地新增企业的数量; (2)若在此地进行考察,考察企业中有4个为“专精特新”企业,3个企业中为普通企业,现从这7个企业中随机抽取3个,用X表示抽取的3个企业中为“专精特新”企业的个数,求随机变量X的分布列与均值. 参考公式:经验回归方程=+x中,斜率和截距最小二乘估计公式分别为=,=-. 解 (1)==3, ==24, (xi-)(yi-)=(-2)×(-16)+(-1)×(-7)+0×5+1×0+2×18=75, (xi-)2=4+1+0+1+4=10, 所以==7.5,则=-=1.5, 所以=1.5+7.5x, 预测2023年,即当x=7时,由经验回归方程可得=54, 所以估计2023年此地新增企业的数量约为54家. (2)由题意可知,X的所有可能取值为0,1,2,3, 则P(X=0)==,P(X=1)==, P(X=2)==,P(X=3)==, 所以X的分布列为
所以E(X)=0×+1×+2×+3×=. 思维升华 高考常将回归模型与分布列等交汇在一起进行考查,求经验回归方程时要充分利用已知数据,合理利用公式减少运算.求解概率问题时要注意概率模型的应用,明确所求问题所属的事件类型是关键. 跟踪训练2 (2023·三明模拟)2022年,中国新能源汽车销售火爆,A省相关部门调查了该省2022年1月份至10月份的新能源汽车销量情况,得到一组样本数据(xi,yi)(i=1,2,…,10),其中xi表示第i个月,yi表示第i个月A省新能源汽车的销量(单位:万辆),由样本数据的散点图可知,y与x具有线性相关关系,并将这10个月的数据作了初步处理,得到下面一些统计量的值:
(1)建立y关于x的经验回归方程,并估计A省12月份新能源汽车的销量; (2)为鼓励新能源汽车销售商积极参与调查,A省汽车行业协会针对新能源汽车销售商开展抽奖活动,所有费用由某新能源汽车厂商赞助.奖项共设一、二、三等奖共三个奖项,其中一、二、三等奖分别奖励2万元、1万元、5千元,抽中一、二、三等奖的概率分别为,,.现有甲、乙两家汽车销售商参加了抽奖活动,假设他们是否中奖相互独立,求这两家汽车销售商所获奖金总额X(单位:万元)的分布列及均值. 附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程=+x的斜率和截距的最小二乘估计分别为=,=-. 解 (1)由题意得,==5.5, 又=1.5,iyi=89.1,=385, 所以===0.08, =1.5-0.08×5.5=1.06, 则y关于x的经验回归方程为=1.06+0.08x, 当x=12时,=2.02, 故A省12月份新能源汽车的销量约为2.02万辆. (2)这两家汽车销售商所获得的奖金总额X的所有可能取值为4,3,2.5,2,1.5,1, P(X=4)=×=, P(X=3)=2××=, P(X=2.5)=2××=, P(X=2)=×=, P(X=1.5)=2××=, P(X=1)=×=, 则X的分布列为
E(X)=4×+3×+2.5×+2×+1.5×+1×=. 题型三 独立性检验与分布列的综合问题 例3 (2023·滨州模拟)新能源汽车是指除汽油、柴油发动机之外的所有其他能源汽车,有利于减少空气污染和缓解能源短缺的压力.在当今提倡全球环保的前提下,新能源汽车越来越受到消费者的青睐,新能源汽车产业也必将成为未来汽车产业发展的导向与目标.某车企随机调查了今年3月份购买本车企生产的汽车的100位车主,经统计其购车种类与性别情况如表所示(单位:人).
(1)根据小概率值α=0.05的独立性检验,分析购车种类是否与性别有关; (2)用样本估计总体,用本车企售出汽车样本的频率代替售出汽车的概率,从该车企今年3月份售出的汽车中,随机抽取3辆汽车,设被抽取的3辆汽车中属于传统燃油汽车的辆数为X,求X的分布列及均值. 附:χ2=,n=a+b+c+d.
解 (1)零假设为H0:购车种类与性别无关, 根据表中数据可得χ2==≈5.556>3.841=x0.05, 根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为购车种类与性别有关. (2)随机抽取1辆汽车属于传统燃油汽车的概率为=,设被抽取的3辆汽车中属于传统燃油汽车的辆数为X,则X的所有可能取值为0,1,2,3, 依题意得,X~B, P(X=0)=C×0×3=, P(X=1)=C×1×2=, P(X=2)=C×2×1=, P(X=3)=C×3×0=, 所以X的分布列为
则E(X)=3×=. 思维升华 高考常将独立性检验与分布列等交汇在一起进行考查,解决独立性检验问题,要注意过好“三关”:假设关、公式关、对比关.解决概率问题要准确地把握题中所涉及的事件,明确所求问题所属的事件类型. 跟踪训练3 (2023·昆明模拟)2022年,举世瞩目的冬奥会在北京举行,冬奥会吉祥物“冰墩墩”和“雪容融”有着可爱的外表和丰富的寓意,自亮相以来就好评不断,深受各国人民的喜爱.某市一媒体就本市小学生是否喜爱这两种吉祥物对他们进行了一次抽样调查,列联表如下(单位:人):
(1)根据小概率值α=0.01的独立性检验,能否推断是否喜爱吉祥物与性别有关? (2)现从样本的男生中采用比例分配的分层随机抽样的方法抽取5人,再从这5人中随机抽取3人,记抽取的3人中有X人喜爱吉祥物,求X的分布列和均值. 附:χ2=,其中n=a+b+c+d.
解 (1)零假设为H0:喜爱吉祥物与性别无关. 根据表中数据得χ2==≈4.762<6.635=x0.01, 所以根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为喜爱吉祥物与性别无关. (2)由题意得,采用比例分配的分层随机抽样方法抽取出的5人中,有3人喜爱吉祥物,有2人不喜爱吉祥物, 则X的可能取值为1,2,3, 所以P(X=1)==, P(X=2)==, P(X=3)==, 所以X的分布列为
则E(X)=1×+2×+3×=. 课时精练1.(2023·大理模拟)第24届冬季奥林匹克运动会于2022年2月4日在中国北京开幕,简称“北京冬奥会”.某媒体通过网络随机采访了某市100名关注“北京冬奥会”的市民,并将其年龄数据绘制成如图所示的频率分布直方图. (1)已知[30,40),[40,50),[50,60)三个年龄段的人数依次成等差数列,求a,b的值; (2)该媒体将年龄在[30,50)内的人群定义为高关注人群,其他年龄段的人群定义为次高关注人群,为了进一步了解其关注项目.现按“关注度的高低”采用比例分配的分层随机抽样的方式从参与采访的100位关注者中抽取10人,并在这10人中随机抽取3人进行电视访谈,求此3人中来自高关注人群的人数X的分布列与均值. 解 (1)由题意可知 解得a=0.035,b=0.025. (2)利用比例分配的分层随机抽样的方式从样本中抽取10人, 易知其中属于高关注人群的有10×(0.035+0.025)×10=6(人),则属于次高关注人群的有4人, 则X的所有可能取值为3,2,1,0, 所以P(X=3)==,P(X=2)==, P(X=1)==,P(X=0)==, 所以X的分布列为
所以E(X)=3×+2×+1×+0×=1.8. 2.(2022·衡阳模拟)某市某部门为了了解全市中学生的视力情况,采用比例分配的分层随机抽样方法抽取了该市120名中学生,已知该市中学生男女人数比例为7∶5,他们的视力情况统计结果如表所示:
(1)请把表格补充完整,并根据小概率值α=0.01的独立性检验,判断近视是否与性别有关; (2)如果用这120名中学生中男生和女生近视的频率分别代替该市中学生中男生和女生近视的概率,且每名同学是否近视相互独立.现从该市中学生中任选4人,设随机变量X表示4人中近视的人数,求X的分布列及均值. 附:χ2=,其中n=a+b+c+d.
解 (1)∵该市中学生男女人数比例为7∶5, ∴抽取的120名学生中男生有70人,女生有50人, 2×2列联表如下:
零假设为H0:近视与性别无关. 根据列联表中的数据得, χ2=≈6.857>6.635=x0.01, ∴根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为近视与性别有关. (2)∵用这120名中学生中男生和女生近视的频率分别代替该市中学生中男生和女生近视的概率, ∴每名学生近视的概率为=, 由题意可得,X的所有可能取值为0,1,2,3,4, 且随机变量X~B, P(X=k)=Ck4-k,k=0,1,2,3,4, ∴X的分布列为
E(X)=4×=. 3.随着生活水平的不断提高,人们越来越注重养生.科学健身有利于降低脂肪含量,健身器材成为人们的新宠.某小区物业决定选购一款健身器材,物业管理员从该品牌的销售网站了解到此款健身器材近五个月的实际销量如表所示:
(1)求出销量y关于月份编号t的经验回归方程,并预测12月份该品牌此款健身器材的销量; (2)该品牌销售商为了促销,采取“摸球定价格”的优惠方式,其规则为:盒子内装有编号为1,2,3的三个完全相同的小球,有放回地摸三次,三次摸到相同编号的享受七折优惠,三次仅有两次摸到相同编号的享受八折优惠,其余均九折优惠.已知此款健身器材一台标价为10 000元,设物业公司购买此款健身器材的价格为X,求X的分布列与均值. 参考公式与数据:对于经验回归方程=x+,其中=,=-, (ti-)(yi-)=3.2. 解 (1)依题意知=×(1+2+3+4+5)=3, =×(0.5+0.6+1+1.4+1.7)=1.04, ===0.32, =-=1.04-0.32×3=0.08, 故销量y关于月份编号t的经验回归方程为=0.32t+0.08. 令t=6,则=0.32×6+0.08=2. 故可预测12月份该品牌此款健身器材销量为2万台. (2)有放回地摸球,每次摸到某个编号的概率为, 则三次摸到相同编号的概率为3×3=, 仅有两次摸到相同编号的概率为3×3×××=. 公司购买此款健身器材的价格X的所有可能取值为7 000,8 000,9 000,其分布列为
故E(X)=7 000×+8 000×+9 000×=. 4.2022年3月,“两会”在北京召开,会议吸引了全球的目光,对我国以后的社会经济发展有深刻的历史意义,某媒体为调查本市市民对“两会”的了解情况,进行了一次“两会”知识问卷调查(每位市民只能参加一次),随机抽取年龄在15~75岁之间的100人进行调查,并按年龄绘制的频率分布直方图如图所示,其分组区间为[15,25),[25,35),[35,45),[45,55),[55,65),[65,75],把年龄落在区间[15,35)和[35,75]内的人分别称为“青少年人”和“中老年人”. (1)若“青少年人”中有15人在关注“两会”,根据已知条件完成下面的2×2列联表,根据小概率值α=0.01的独立性检验,判断关注“两会”是否与年龄有关; (2)由(1)中结果,采用比例分配的分层随机抽样的方法从“青少年人”关注“两会”和不关注“两会”的人中抽取6人,再从这6人中选3人进行专访,设这3人中关注“两会”的人数为X,求X的分布列和均值.
附:χ2=,n=a+b+c+d.
解 (1)依题意可知,“青少年人”共有100×(0.015+0.030)×10=45(人), “中老年人”共有100-45=55(人), 2×2列联表如下:
零假设为H0:关注“两会”与年龄无关. 结合列联表的数据得 χ2=≈9.091>6.635=x0.01, 所以根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为关注“两会”与年龄有关. (2)依题意可知,样本中青少年人关注“两会”的有15人,不关注“两会”的有30人, 采用比例分配的分层随机抽样的方法抽取6人,则关注“两会”的抽取2人,不关注“两会”的抽取4人, 则X的所有可能取值为0,1,2, 所以P(X=0)==,P(X=1)==, P(X=2)==, 故随机变量X的分布列为
所以E(X)=0×+1×+2×=1. 5.(2023·南平模拟)某学校共有3 000名学生,其中男生1 800人,为了解该校学生在校的月消费情况,采取比例分配的分层随机抽样的方式抽取100名学生进行调查,先统计他们某月的消费金额,然后按“男生、女生”分成两组,再分别将两组学生的月消费金额(单位:元)分成5组:[300,400),[400,500),[500,600),[600,700),[700,800]分别加以统计,得到如图所示的频率分布直方图. (1)样本中将月消费金额不低于600元的学生称为“高消费群”.请你根据已知条件完成下列2×2列联表,并根据小概率值α=0.05的独立性检验,分析该校学生属于“高消费群”是否与性别有关;
附:χ2=,其中n=a+b+c+d
(2)以样本估计总体,将调查所得到的频率视为概率,现从该学校中每次随机抽取1名学生,共抽取4次,且每次抽取的结果是相互独立的,记被抽取的4名学生中属于“高消费群”的人数为X,求X的均值E(X)和方差D(X). 解 (1)由题意及频率分布直方图可得,
零假设为H0:该校学生属于“高消费群”与性别无关, 由列联表中数据得χ2==≈6.593>3.841=x0.05, 所以根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为该校学生属于“高消费群”与性别有关. (2)被抽取的4名学生中每一名学生是“高消费群”的概率为=,所以X~B, 所以E(X)=4×=, D(X)=4××=. 6.(2022·重庆模拟)某公司为了提升一款产品的市场竞争力和市场占有率,对该款产品进行了科技创新和市场开发,经过一段时间的运营后,统计得到x,y之间的五组数据如表所示:
其中,x(单位:百万元)是科技创新和市场开发的总投入,y(单位:百万元)是科技创新和市场开发后的收益. (1)求样本相关系数r的大小(精确到0.01),并判断科技创新和市场开发后的收益y与科技创新和市场开发的总投入x的线性相关程度; (2)该公司对该产品的满意程度进行了调研,在调研100名男、女性消费者后,得到数据如表所示:
根据小概率值α=0.01的独立性检验,判断消费者满意程度是否与性别有关; (3)对(2)中调研的45名女性消费者,按照其满意程度进行比例分配的分层随机抽样,从中抽出9名女性消费者到公司进行现场考察,再从这9名女性消费者中随机抽取4人进行深度调研,记这4人中“满意”的人数为X,求X的分布列及均值. 参考公式: ①r=∑,\s\up6(ni=1; ②χ2=, 其中n=a+b+c+d. 临界值表:
参考数据:≈22. 解 (1)由题意可得==3, ==16, 则(xi-)(yi-)=(-2)×(-7)+(-1)×(-5)+0×(-2)+1×10+2×4=37, (xi-)2(yi-)2=[(-2)2+(-1)2+0+1+22]×[(-7)2+(-5)2+(-2)2+102+42]= 1 940, ∴r==≈0.84, ∴科技创新和市场开发后的收益y与科技创新和市场开发的总投入x的线性相关程度比较强. (2)零假设为H0:消费者满意程度与性别无关. 根据列联表数据得χ2=≈8.129>6.635=x0.01, ∴根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为消费者满意程度与性别有关. (3)易知抽出的9名女性消费者中满意的有5人,不满意的有4人, 由题意可知,X的所有可能取值为0,1,2,3,4, P(X=0)==, P(X=1)===, P(X=2)===, P(X=3)===, P(X=4)==, ∴X的分布列为
E(X)=0×+1×+2×+3×+4×=. |
|