2022高考复习变量间的相关关系、统计案例目录核心考点常考题型跟踪检测>>>>核心考点1.变量间的相关关系、统计案例1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.核心考点1.变量间的相关关系、统计案例相关关系与函数关系异同点共同点:二者都是指两个变量间的关系.不同点:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.核心考点2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为=x+???回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.?????核心考点2.两个变量的线性相关的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.核心考点2.两个变量的线性相关(4)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.要点点拨r的符号表明两个变量是正相关还是负相关;|r|的大小表示线性相关性的强弱.核心考点3.独立性检验假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为易错提示?y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.课前检测D课前检测2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2必定平行B.l1与l2必定重合C.l1和l2一定有公共点(s,t)D.l1与l2相交,但交点不一定是(s,t)C课前检测3.下面是2×2列联表:?y1y2总计x1a2173x2222547总计b46120则表中a,b的值分别为________,________.5274课前检测2.6x0134y2.24.34.86.7常考题型题型一相关关系的判断D常考题型题型一相关关系的判断2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关C常考题型题型一相关关系的判断D所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1.常考题型4.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1 D.r2=r1题型一相关关系的判断C对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0方法总结判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.常考题型下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.题型二回归分析常考题型下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;常考题型下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.方法总结1.线性回归分析问题的类型及解题方法(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.方法总结2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好.(2)相关指数R2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.过关训练1.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X/小时30<X<5050≤X≤70X>70光照控制仪运行台数321对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.过关训练1.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)过关训练1.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X/小时30<X<5050≤X≤70X>70光照控制仪运行台数321对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.当X>70时,共有10周,此时只有1台光照控制仪运行,每周的周总利润为1×3000-2×1000=1000(元).当50≤X≤70时,共有35周,此时有2台光照控制仪运行,每周的周总利润为2×3000-1×1000=5000(元).当30<X<50时,共有5周,此时3台光照控制仪都运行,每周的周总利润为3×3000=9000(元).所以过去50周的周总利润的平均值为过关训练2.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.过关训练2.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.过关训练2.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01).过关训练2.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?(假设能够全部售出.结果精确到1)(2019·河北名校联考)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:常考题型分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)频数126386182?分组[30.02,30.06)[30.06,30.10)[30.10,30.14]?频数92614?题型三独立性检验乙厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)频数297185159?分组[30.02,30.06)[30.06,30.10)[30.10,30.14]?频数766218?(1)试分别估计两个分厂生产的零件的优质品率;常考题型(2)由以上统计数据完成下面2×2列联表,并判断是否有99%的把握认为“两个分厂生产的零件的质量有差异”.题型三独立性检验?甲厂乙厂总计优质品???非优质品???总计???6803603201403201801000500500方法总结独立性检验的一般步骤(1)根据样本数据列出2×2列联表.(2)计算随机变量K2的观测值k,查下表确定临界值k0:解题策略P(K2≥k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706?P(K2≥k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关”.过关训练(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.第二种生产方式的效率更高.理由如下:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间高于80min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间低于79min.因此第二种生产方式的效率更高.过关训练(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:?超过m不超过m第一种生产方式??第二种生产方式??515155过关训练(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异??超过m不超过m第一种生产方式155第二种生产方式515再见其中==,=-.
(3)通过求
K2=(其中n=a+b+c+d为样本容量).
1.已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为=x+,则下列说法正确的是()
A.>0,<0B.>0,>0
C.<0,<0D.<0,>0
回归直线的斜率是正数,即>0;
回归直线在y轴上的截距是负数,即<0
4.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
1.两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是()
A.①②③B.②③①C.②①③D.①③②
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为()
A.-1B.0C.D.1
参考数据:
i=9.32,iyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
由=≈1.331及(1)得==≈0.103.
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2019年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以,预测2019年我国生活垃圾无害化处理量约为1.82亿吨.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(1)求线性回归方程
利用公式,求出回归系数,.
待定系数法:利用回归直线过样本点的中心求系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,
两变量的线性相关性越强.
参考数据:≈0.55,≈0.95.
由已知数据可得==5,==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,==,
所以相关系数r===≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
=4600(元)
参考数据:≈0.55,≈0.95.
(xi-)2 (xi-)(yi-) (ui-)2 (ui-)(yi-) 15.25 3.63 0.269 2085.5 -230.3 0.787 7.049
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与
印刷数量x(单位:千册)的回归方程.
(xi-)2 (xi-)(yi-) (ui-)2 (ui-)(yi-) 15.25 3.63 0.269 2085.5 -230.3 0.787 7.049
表中ui=,=i.
由于==≈8.957≈8.96,
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其回归直线=+ω的斜率和截距的最小二乘估计分别为
=,=-.
令u=,先建立y关于u的线性回归方程,
∴=-·=3.63-8.957×0.269≈1.22,
y关于u的线性回归方程为=1.22+8.96u,
y关于x的回归方程为=1.22+.
假设印刷x千册,依题意得10x-x≥78.840,
解得x≥10,
至少印刷10000册才能使销售利润不低于78840元.
甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为×100%=72%;
乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为×100%=64%.
由表中数据计算得,
K2=≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
由茎叶图知m==80.
附:K2=,
因为K2==10>6.635,
所以有99%的把握认为两种生产方式的效率有差异.
|
|