第四节变量间的相关关系、统计案例1.两个变量的线性相关(1)在散点图中,点散布在从____________到_________的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从_________到_________的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在______________,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的_____________和最小的方法叫最小二乘法.4.独立性检验(1)利用随机变量______来判断“两个分类变量__________”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表2.残差分析中的相关指数R2对模型拟合效果的影响是怎样的?【提示】R2越大,意味着残差平方和越小,即模型的拟合效果越好.R2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.1.(人教A版教材习题改编)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.=-10x+200B.=10x+200C.=-10x-200D.=10x-200【解析】由题意回归方程斜率应为负,故排除B,D,又销售量应为正值,故C不正确,故选A.【答案】A2.(2013·枣庄模拟)下面是2×2列联表:【解析】∵a+21=73,∴a=52.又a+22=b,∴b=74.【答案】C【答案】D5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填有关或无关).【解析】∵k=27.63>6.635,∴有99%的把握认为“打鼾与患心脏病有关”.【答案】有关(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?【思路点拨】分析观测数据、制图,分析散点图,做出判断.【尝试解答】(1)散点图如下:(2)①从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系.②不会,水稻产量只是在一定范围内随着化肥施用量的增加而增长.1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2.在散点图中,若点散布在从左下角到右上角的区域,称为正相关;若散布在从左上角到右下角的区域称为负相关.(2013·九江调研)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1 D.r2=r1【解析】对于变量Y与X,Y随着X的增大而增大,∴Y与X正相关,即r1>0.对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,因此r2<0<r1.【答案】C(2013·合肥模拟)某地最近十年粮食需求量逐年上升,下表是部分统计数据:【思路点拨】(1)为了方便计算,可将数据适当处理,再列对应表格,求回归系数;(2)根据回归方程进行预测分析.【尝试解答】(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,为此对数据预处理如下:(2)利用直线方程①,可预测2014年的粮食需求量为6.5×(2014-2008)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨).为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:(2012·辽宁高考改编)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.已知“体育迷”中有10名女性.(1)试求“体育迷”中的男性观众人数;(2)据此资料你是否认为“体育迷”与性别有关?附:【思路点拨】(1)根据频率分布直方图求“体育迷”人数,进而确定其中男性观众人数.(2)列出2×2列联表,计算K2的观测值k,依据独立性检验思想作出判断.【尝试解答】(1)由频率分布直方图,“体育迷”的频率为(0.005+0.020)×10=0.25.∴“体育迷”观众共有100×0.25=25(名),因此,男“体育迷”共有25-10=15(名).(2)由(1)列2×2列联表如下:为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.1.函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,相关关系是非随机变量与随机变量的关系.2.当K2≥3.841时,则有95%的把握说事件A与B有关;当K2≤2.706时,认为两个分类变量无关.1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.2.线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差.3.独立性检验的随机变量K2的观测值k=3.841是判断是否有关系的临界值,K2的观测值k≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:【解析】由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点,因此B正确.由线性回归方程中系数的意义知,x每增加1cm,其体重约增加0.85kg,故C正确.当某女生的身高为170cm时,其体重估计值是58.79kg,并不一定就是58.79kg,因此D不正确.【答案】D2.(2013·深圳模拟)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”【解析】由相关系数K2的意义,附表所对应的概率为“爱好该运动与性别有关”,∴有99%以上的把握认为“爱好该项运动与性别有关”.【答案】C270160不需要3040需要女男性别是否需要志愿者(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)在犯错误的概率不超过1%的条件下,你能否认为该地区的老年人是否需要志愿者提供帮助与性别有关?从近两年高考看,以考查独立性检验,回归分析为主,多为选择题、填空题,也可能以解答题形式考查,主要以实际问题为背景,考查阅读理解、分析问题、解决问题的能力,在解决一些简单实际问题的过程中考查基本的统计思想.思想方法之十七利用回归分析思想进行科学预测687580838490销量y(件)98.88.68.48.28单价x(元)1105060总计503020不爱好602040爱好总计女男附表:10.8286.6353.841k0.0010.0100.050P(K2≥k)菜单课后作业典例探究·提知能新课标·文科数学(安徽专用)自主落实·固基础高考体验·明考情左下角右上角左上角右下角一条直线附近距离的平方K2有关系a+b+c+db+da+c总计c+ddcx2a+bbax1总计y2y1构造一个随机变量K2=_________________________________________,其中n=_______________为样本容量.a+b+c+d12046b合计472522x27321ax1合计y2y1则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,524.(2013·锦州质检)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】由题意知[0.254(x+1)+0.321]-(0.254x+0.321)=0.254.【答案】0.254下面是水稻产量与施化肥量的一组观测数据:480470460410360330320水稻产量45403530252015施化肥量286276257246236需求量(万吨)20122010200820062004年份29190-11-21需求量-257420-2-4年份-20080.40.60.60.50.4命中率y54321时间x(1)试求小李这5天的平均投篮命中率;(2)请你用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率.6.6353.841k0.010.05P(K2≥k)1002575合计551045女451530男合计体育迷非体育迷(2)回归方程:两个具有线性相关关系的变量的一组数据:(x,y)、(x,y),…,(x,y).其回归方程为=+,则
其中称为样本点的中心.3.残差分析(1)残差:对于样本点(x,y),(x,y),…,(xyn),它们的随机误差为e=y-bx-a,i=1,2,…,n,其估计值为=y-=y--,i=1,2,…,n.称为相应于点(x,y)的残差.(2)残差平方和为(y-)2.
(3)相关指数:R=
1.线性回归方程=bx+a是否一定过样本点的中心(,),为什么?【提示】一定过点,∵=-,∴=+,即点一定在回归直线=+上.3.(2012·课标全国卷)在一组样本数据(x,y),(x2,y),…,(x,y)(n≥2,x,x,…,x不全相等)的散点图中,若所有样本点(x,yi)(i=1,2,…,n)都在直线y=+1上,则这组样本数据的样本相关系数为()-1. D.1
【解析】样本点都在直线上时,其数据的估计值与真实值是相等的,即y=r=(1)利用所给数据求年需求量与年份之间的回归直线方程=+;(2)利用1)中所求出的直线方程预测该地2014年的粮食需求量.对预=0,=3.2,===6.5,=-=3.2,由上述计算结果,知所求回归直线方程为-257=(x-2008)+=6.5(x-2008)+3.2即=6.5(x-2008)+260.2.①
1.解答本题将年份-200,需求量-257,有利于计算,进而由回归直线方程进行有效地预测分析.
.正确运用计算、的公式和准确的计算,是求线性回归方程的关键.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.【解】(1)由图表知,5天的平均投篮命中率==0.5,(2)=(1+2+3+4+5)=3,==0.01,=-=0.5-0.01×3=0.47,
故回归直线方程为=0.47+0.01x将x=6代入,得=0.53,号打6小时篮球命中率约为0.53.
K2=将2×2列联表中的数据代入公式计算,得===<3.841.我们没有理由认为“体育迷”与性别有关.
1.独立性检验的关键是准确的计算K,在计算2×2列联表.
.独立性检验的步骤:(1)根据样本数据制成2×2列联表.(2)根据公式K=计算K的观测值k.(3)比较k与临界值的大小关系作统计推断.K2=【解】(1)调查的500位老年人中有70位需要志愿者帮助,需要帮助的老年人的比例的估计值为=14(2)k=由于9.967>6.635,所以在允许犯错误的概率不超过1的条件下,可以认为该地区的老年人是否需要帮助与性别有关.(1)求回归直线方程=+(其中=-20,=-);(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【规范解答】(1)由于=(x+x+x+x+x+x)=8.5,=(y+y+y+y+y+y)=80.又=-20.所以=-=80+20×8.5=250,从而回归直线方程为=-20x+250.(2)设工厂获得的利润为L元,依题意得=x(-20x+250)-4(-20x+250)
=-20x+330x-1000=-20(x-)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.
易错提示:(1)在求回归直线方程时,易因为数据较多,公式结构复杂,计算及的值时容易出错.(2)把回归直线中的和弄颠倒,把回归直线写为y=+,导致结果错误.防范措施:(1)把计算及的公式结构把握好,代入数据,谨慎运算.(2)注意回归直线方程=+和通常的一次函数=kx+b在系数上的表达习惯不一样,不要把两系数弄颠倒.
1.(2012·湖南高考)设某大学的女生体重y(单位:)与身高x(单位:)具有线性相关关系,根据一组样本数据(x,y)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是()与x具有正的线性相关关系回归直线过样本点的中心(,)
C.若该大学某女生身高增加1,则其体重约增加若该大学某女生身高为170,则可断定其体重必为58.79由K=算得,= |
|