x1x2y2y1总计总计abdca+b+c+dc+da+bb+da+c卡方检验的书写格式 一表二方比大小三写概率四决策S1:画出2×2列联表:解:由题意得(列联表已知时此步可省略)卡方检验的书写格 式一表二方比大小三写概率四决策S1:画出2×2列联表:解:由题意得(列联表已知时此步可省略)S2:算出观 察值K2(k)与与临界值k0比较大小:k0因K2=…≈…x1x2y2y1总计总计abd ca+b+c+dc+da+bb+da+cS1:画出2×2列联表:(列联表已知时此步可省略)S2:算出 观察值K2(k)与临界值k0比较大小:卡方检验的书写格式一表二方比大小三写概率四决策其中n=a+b+c+d 注2:考试时,虽然会给出K2计算公式暂时理解成K2=k注1:K2是一个随机变量,随实测数据变化而变化k是根 据实测数据带入公式算出的一个观察值但试题中,只有具体的数字,没有a,b,c,d,n……故一定要明确:a,b,c,d,n的含义 ,尤其是b,c的位置S1:画出2×2列联表:(列联表已知时此步可省略)S2:算出观察值K2(k)与临界值k0比较大小: 卡方检验的书写格式一表二方比大小三写概率四决策注2:要明确:a,b,c,d,n在公式中的含义……注1:……暂 时理解成:观察值k=K2……注3:临界值k0的确定:(1)临界值k0无指定型:(2)临界值k0有指定型:由已知概 率P0,结合信用度表换算出k0(P0=P(K2=k0))一般的,用左不用右P(K2≥k0) k00.500.400.250.150.100.4550.7081.3232.0722.706 0.050.0250.0100.0050.0013.8415.0246.6357.87910.828练习1. 确定临界值k0:(1).临界值k0题中无指定型:若观察值k=6.666,则临界值k0=________ _(2).临界值k0题中无指定型:若观察值k=7.890,则临界值k0=_________(3).临界值k 0题中有指定型:若已知概率P0=0.99,则临界值k0=_________(4).临界值k0题中有指定型: 若已知概率P0=0.95,则临界值k0=_________6.6357.8796.6353.84 1卡方检验的书写格式一表二方比大小三写概率四决策S1:画出2×2列联表:解:由题意得(列联表已知时此步可 省略)S2:算出观察值K2(k)与临界值k0比较大小:S3:写出概率P0=P(K2=k0)k0因K2=… ≈…而P0=P(K2=k0)=……x1x2y2y1总计总计abdca+b+c+ dc+da+bb+da+cS1:画出2×2列联表:(列联表已知时此步可省略)S2:算出观察值K2(k)与 临界值k0比较大小:卡方检验的书写格式一表二方比大小三写概率四决策S3:写出概率P0=P(K2=k0) S4:决策:决策表述常见三四个填空是关键①在犯错的概率不超过XX%的前提下可认为X与Y有(无)关②有XX %的把握认为X与Y有(无)关③认为X与Y有(无)关的可信度为XX%注1:一般的、若k≥k0,则推断:X与Y有关 若k<k0,则推断:X与Y无关注2:①中的XX%=P0,而②③中的XX%=1-P0(2)( 2011年湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由算得,参照附表,得到的正 确结论是A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下 ,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项 运动与性别无关”【C】(3)课本《选修2-3》P:97Ex2通过随机询问72名不同性别的大学生在购买食物时是否看 营养说明,得到如下列联表:总计总计162882072284436 36男生女生 读营养说明 不读营养说明①能够以99%的把握认为性别与读营养说明之间有关系吗?解: 因k=…≈8.416注意:1.书写格式2.计算到百分位练习3.卡方检验:一表二方比大小三 写概率四决策(3)通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:总计总 计16288207228443636男生女生 读营养说明 不读营养说明①能够以99%的把握认为性别与读营养说明之间有关系吗?解:因k=…≈8.416一表 二方比大小三写概率四决策而P(K2≥6.635)=0.010>6.635有指定用指定所以能够以99 %的把握认为性别与读营养说明之间有关(3)通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下 列联表:总计总计16288207228443636男 生女生 读营养说明 不读营养说明①能够以99%的把握认为性别与读营养说明之间有关系吗?解:因k=… ≈8.416而P(K2≥7.879)=0.005>7.879无指定用左不用所以能够以99.5% 的把握认为性别与读营养说明之间有关②请问性别和读营养说明之间在多大程度上有关系?(4)(2013年福建简化)…某工厂为 了研究工人的日平均生产量是否与年龄有关…规定日平均生产件数不少于80件者为“生产能手”,是否有90%的把握 、认为“生产能手与工人所在的年龄组有关”?而P(K2≥2.706)=0.10<2.706解 :因K2=所以没有90%的把握认为:“生产能手与工人所在的年龄组有关”小结独立性检验一、有关概念: 二、独立性检验的简介:三、检验独立性的方法:1.定性变量与定量变量:2.2×2列联表:<一>.频率法:<二>.等高条 形图法:<三>.卡方检验:1.卡方检验简述:3.书写格式:2.操作步骤及三个细节:卡方检验独立性的书写格式S 1:画出2×2列联表:(列联表已知时此步可省略)S2:算出观察值K2(k)与临界值k0比较大小:一表二方比大小三写概率四 决策S3:写出概率P0=P(K2=k0)S4:决策:针对训练:预习:《练出好成绩》P:433左下Ex 6复习与小结§118独立性检验一、有关概念:二、独立性检验的简介:三、检验独立性的方法: 1.定性变量与定量变量:2.2×2列联表:<一>.频率法:<二>.等高条形图法:<三>.卡方检验:1.卡方检验简述 :3.书写格式:2.操作步骤及三个细节:概率与统计简述总体样本抽样估计推断回归分析相关分析 分布列及期望概率计数估计特征值估计表,式及其他估计图估计均值,方差,中数…直方图,茎叶图…频数表, 频率表…估计简述方差是各个数据与平均数之差的平方的和的平均数标准差是方差的算术平方根①定义法:……特征值 的求法特征值的求法②公式法:①定义法:……<1>.数据x,x,x,…,x的平均值为x,方差为O<2>.若数据 的平均值为,方差为则数据的平均值 为,方差为<3>.若数据的平均值为,方差为数据的平 均值为则②公式法:……①定义法:……③图表法:注1:在频率分布直方图中<1>众数:最高矩形的中点的横坐标< 2>中位数:左右两边直方图的面积和各为0.5的点的横坐标<3>平均数:每个小矩形面积乘以小矩形 底边中点的横坐标之和特征值的求法②公式法:……①定义法:……③图表法:注2:在茎叶图中如何看数据的稳 定性<1>单峰的稳定性大于多峰的稳定性<2>越对称稳定性越好<3>峰越瘦越尖,数据更集中,更稳定峰越矮越胖,数 据越分散,不稳定特征值的求法特征值估计中位数众数频数频率均值标准差极差方 差作用特征值对半水平个体位置百分比平均水平稳定性稳定性稳定性平均水平<1>聚中(稳定) 性特征值:<2>离散(波动)性特征值:<3>结构性特征值:众数,平均数中位数,方差,极差,标准差频率,3 δ原则特征值估计<1>聚中(稳定)性特征值:<2>离散(波动)性特征值:众数,平均数中位数,方差,极差, 标准差注:常见的三类估计问题:,如何估计……①已知,②已知,,如何估计……③已知 ,,如何估计……结构性特征值的作用①频率:……②3δ原则:参《选修2-3》P:79~80数据Yi的 取值几乎全部集中在区间(μ-3σ,μ+3σ)内①数值Yi分布在区间(μ-σ,μ+σ)内的概率为0.6826②数值Yi分布在 区间(μ-2σ,μ+2σ)内的概率为0.9544③数值Yi分布在区间(μ-3σ,μ+3σ)内的概率为0.9974即在正 常状态下,可以认为:而落在该区间之外的可能性不到3‰已知某组数据Y1,Y2,Y3,……的平均值为μ,标准差为σ则在正常状态下 ,可以认为:图估计1.条形图:2.直方图:3.频率折线图:4.密度曲线:5.茎叶图:6.扇形图:频率条形 图中,纵坐标是频率频率直方图中,面积是频率7.雷达图……概率与统计简述总体样本抽样估计推断回 归分析相关分析分布列及期望概率计数简言之:回归分析就是确定关系相关关系近似(虚拟)成回归分析的三大任务(步骤) 1.是否相关的判定:法2:散点图法法1:经验法法3:相关系数r法法5:数表法:法4:关系式法:相关 系数r——衡量变量之间相关程度的指标(1)计算公式:(2)性质:不相关弱相关一般相关强相关完全相关 ?!①|r|≤1②0.2500.300.751|r|③正相关r>0增函数负 相关r<0减函数回归分析的三大任务(步骤)1.是否相关的判定:2.求回归方程及预报:法 2:散点图法法1:经验法法3:相关系数r法法5:数表法:法4:关系式法:线性回归换元法非线性回归 S2:故求线性回归方程的书写格式S3:即所求回归方程为S1:由题意得S4:利用回归方程做出预报画图求数定 相关二求方程三预报直线必过中心点先算中心再斜率代入求得纵截距小题形法可估算回归分析的三大任务(步骤)1. 是否相关的判定:2.求回归方程及预报:3.拟合效果的判定:法2:散点图法法1:经验法法3:相关系数r 法法5:数表法:法4:关系式法:线性回归换元法非线性回归法1:散点图法:法2:残差法:①残差图法:②残差 平方和法:法3:相关指数R2法:误差e(Error)随机(整体)误差点(个体)误差残差偏差 回归差=真实值-预报值=预报值-均值=真实值-均值①以残差为纵坐标以其他指定的量为横坐标的散点图②若 残差点比较均匀地落在水平的带状区域中、说明选用的模型计较合适③若个别样本点的残差比较大即有异常点存在需确认是 否数据的采集有错误残差图法这样的带状区域的宽度越窄说明模型拟合精度越高回归方程的预报精度越高几种 常见的残差分布示意图③④①②①图说明具有较好的线性关系②图说明具有相关关系,但模型有待改进③图说明具 有相关关系,需加入平方项④图说明具有相关关系,需引入变量回归模型拟合效果的评判——残差法①残差图法:②残 差平方和法:<2>残差平方和越小,说明拟合效果越好<1>称为残差平方和相关指数(样本决定系数或 判定系数)R2法:①计算公式:②作用:③°R2?1,说明回归方程拟合的越好R2?0,说明回归方程拟 合的越差①°在线性回归中恰好有:相关指数R2=相关系数r2②°R2∈[0,1]解释变量对预报变量的贡献率§11 8独立性检验一、有关概念:二、独立性检验的简介:三、检验独立性的方法:1.定性变量与定量变量:2.2×2 列联表:<一>.频率法:<二>.等高条形图法:<三>.卡方检验:1.卡方检验简述:3.书写格式:2.操作步骤及 三个细节:概率与统计简述总体样本抽样估计推断回归分析相关分析分布列及期望概率计数回归分析重在 分析两变量是否具有因果关系相关分析重在分析两变量是否相互影响(独立性检验)(独立性检验)①定性变量:②定量变量: 定性变量的取值一定是实数,取值的大小有特定的含义。不同取值之间的运算也有特定的含义又名分类变量、属性变量。它们的 取值一定是离散的。不同的取值,表示了个体所属的类别定量变量:如长度、重量、速度、温度……定性变量:如某种产品 分为一等品、二等品、三等品;身份证的编号……定量变量分类(定性,属性)变量变量的分类②①解 释变量预报(响应)变量一、有关概念:1.定性变量与定量变量:2.2×2列联表:若有两个分类变量X和Y, 它们的可能取值分别为{x1,x2}和{y1,y2},则称其样本频数列联表为2×2列联表x1x2y2y1总计总计 abdca+b+c+dc+da+bb+da+c注1:顾名思义是两个分类变量的频数表的并列与联合将列联表逆时针 旋90°转成坐标系注2:是回归分析的弱化,尽量选用:x与y注3:要明确:a,b,c,d的位置,尤其是b,c的位置二、独立 性检验的简介:2.简言之,独立性检验是:1.详参:①检验两个分类变量是否具有关系的一种统计方法②统计学中“假设检验”的 特例《选修2-3》P:90~97的内容……4.回归分析与独立性检验的区别:①回归分析重在分析两变量是否具有因果关系② 独立性检验重在分析两变量是否相互影响与反证法很类似S1:先假设两个变量之间独立(没有关系):S2:然后根据小概率事件原理 检验“假设”是否具有“矛盾”3.独立性检验的基本思想:一、有关概念:二、独立性检验的简介:三、检验独立性的方法:< 一>.频率法:注:优点:直观;简便缺点:粗糙;主观性较强列表算率三决策<二>.等高条形图法::列表画图三决策 注1:实际上,是频率法的图形化注2:优点:更加直观;简便缺点:粗糙;主观性较强以上方法,详参《选修2-3》P:9 0~97的内容一、有关概念:二、独立性检验的简介:三、检验独立性的方法:<一>.频率法:<二>.等高条形图法:< 三>.卡方检验:1.卡方检验简述3.书写格式2.操作步骤及三个细节1.卡方检验简述:卡方检验是用途非常广泛的一种假设检验方法卡方检验就是比较样本的实际观测值与理论推断值之间的偏离程度用卡方值的大小,来推断理论与实际偏离程度卡方检验的三个主要作用①独立性(关联性)检验:②拟合度(一致性)检验:③构成比(构成比率)检验:1.卡方检验简述:2.操作步骤及三个细节:卡方检验五大步假设无关列联表算方查表五决策参课本《选修2-3》P:92~96三个细节要留心查表左右要灵活算方bc要分清几成把握可信度决策表述常见三犯错概率不超过四个填空是关键<三>.卡方检验:1.卡方检验简述:2.操作步骤及三个细节:<三>.卡方检验:3.卡方检验独立性的书写格式:S1:画出2×2列联表:(列联表已知时此步可省略)S2:算出观察值K2(k)与临界值k0比较大小:一表二方比大小三写概率四决策S3:写出概率P0=P(K2=k0)S4:决策: |
|