配色: 字号:
统计学基础(第2版)PPT 第9章
2022-10-30 | 阅:  转:  |  分享 
  
第9章 相关分析与回归分析相关分析回归分析应用相关与回归分析应注意问题9.1 相关分析9.1.1相关关系(correlation)的概
念 现象间的非确定性的数量上的依存关系 两个特点⑴确实存在数量上的依存关系 ⑵数量依存关系的值不确定函数关系≠数量依存关系值确定
数量依存关系值不确定 相关分析(correlation analysis) 工 具对 象相关关系9.1.2相
关关系的种类 1.按相关程度不同完全相关 不完全相关 不相关 完全相关不相关不完全相关2.按相关方向不同 正相关负相关正相关负相关
3.按相关的表现形式不同 线性相关 非线性相关 线性相关非线性相关4.按相关的变量多少不同 单相关复相关两个变量之间的相关关系三个
或三个以上变量的相关关系 单相关复相关 完全相关不完全相关 不相关正相关负相关线性相关非线性相关单相关复相关我们重点研究的
相关关系9.1.3 相关图表 1.相关表(correlation table) 将一个变量按取值大小顺序排列,将与其相关的另
一变量数值对应列出来,便可形成简单相关表。 通过相关表,可初步看出相关关系的形式、密切程度和相关方向。 【实例9.1】 对我国部
分省市人均GDP及人均消费水平进行调查,得原始资料如下表9.1,通过相关表,判断两者相关关系。 地区 北京 辽宁 上海
江西 河南 贵州 陕西 人均GDP 22460 11226 34547 4851 5444 2662 4549 人均消
费 7326 4490 11546 2396 2208 1608 2035 地区 贵州 陕西 江西 河南
辽宁 北京 上海 人均GDP 2662 4549 4851 5444 11226 22460 34547 人均消费
1608 2035 2396 2208 4490 7326 11546 2.相关图 (correlation di
agram) 又称散点图(scatter plot),以横轴表示自变量(dependent variable),纵轴表示因变量(i
ndependent variable),通过标出的每对变量值的坐标点或散布点,观察分布状况。 简单 方便 形象 直观粗、略不精确
9.1.4 相关系数 1.相关系数的意义(correlation coefficient) 是在直线相关条件下,说明两个变量之间
相关关系密切程度和方向的统计分析指标,通常用r表示。 表现形式为相对数 不受变量值水平和计量单位的影响 -1≤r≤+1 r>0正
相关负相关r<0 r=+1 完全正线性相关r=-1 完全负 线性相关r=0 完全不 线性相关0<|r|<0.3 微相关 0.3≤|
r|<0.5 低度相关 0.5≤|r|<0.8 显著相关 0.8≤|r|<1 高度相关 取值范围 2.相关系数的计算 n表示相关表
中数据项数 【实例9.2】根据表9.1的资料,已知人均GDP与人均消费水平为直线相关关系,计算人均GDP与人均消费水平的相关系数。
编号 人均GDPx 人均消费y x2 y2
xy 1 2662 1608 7086244 2585664
4280496 2 4549 2035 20693401 4141225
9257215 3 4851 2396 23532201 5740816
11622996 4 5444 2208 29637136 4875264
12020352 5 11226 4490 126023076 201601
00 50404740 6 22460 7326 504451600 5367
0276 164541960 7 34547 11546 1193495209 133
310116 398879662合计 85739 31609 1904918867 224
483461 651007421 r=7×651007421-85739×31609 =0.9981 高度正相关应注
意的 问题相关关系不等于因果关系r只度量线性关系,弱相关不一定表明没有关系极端值可能影响相关系数注意相关关系成立的数据范围警
惕虚假相关9.2 回归分析 9.2.1回归分析的意义 1.回归(regression) 1877年 英国弗朗西斯?高尔顿爵士
遗传学研究 回归线2.回归分析(regression analysis) 研究一个或几个变量的变动对另一个变量的变动
影响程度的方法。 根据资料建立相应的数学表达式通过给定自变量的数值估计因变量的可能值这种分析就叫回归分析所建立的数学模型称回归模型
9.2.2回归分析的特点 两变量是随机变量 因变量是随机变量 两变量对等一个相关系数 两变量不对等 两个回归方程相关系数是 抽象
数值反映相关程度回归方程具体可利用自变量估计因变量值相关分析回归分析9.2.3一元线性回归方程(regression equati
on) 方程的基本形式 yc=a+ bx a和b称为回归方程中的两个待定参数 需要根据相关表中的x与y的实际资料求解 a和b一旦
确定,直线就被唯一确定 哪一个??希望这条直线离各离散点最近 对于相关表中的x,它对应的实际数值y同这条直线上的理论值yc 的离差
平方和为最小值。 最小值 最小平方法(least squares analysis)求极值偏导为0【实例9.3】 仍以表9.1资
料为例,运用最小平方法,求解回归方程参数a和b,并建立一元线性回归模型。 解:设所配合的一元线性回归方程为:yc=a+bx, 其
中,设人均GDP为x, 人均消费水平为y。 ? yc=734.48+0.3087x 人均GDP为8000元,在其他条件相对
稳定时,可以预测其人均消费水平为:yc=734.48+0.3087×8000=3204.08(元) 根据所建立的直线回归方程,可以
进行预测 应该注意的问题b称为回归系数(regression coefficient)b=0.3087表示人均GDP每增加一个单位
(1元)人均消费水平平均增加0.3087个单位(元) a=734.48,是人均消费水平的起点值,即人均GDP x=0时,y
c的值应该注意的问题回归系数b与相关系数r符号必一致。即通过回归系数b的符号即可判断两变量相关的方向 回归系数b与相关系数r之间还
存在密切数量关系,两者可相互推算 一个直线回归方程只能做一种推算,不能反向进行另一种推算 9.2.4估计标准误差(standard
error of the estimate) 因变量实际值与理论值离差的平均值 计算原理与能够反映平均数代表性大小的标准差基本
相同 定义公式为:
计算公式:= S=【实例9.5】现仍以表9.1的有关资料为例,计算估计标准误差。 =245.48 这表明,7
个省市人均消费水平的估计理论值与实际值的平均误差为245.48元。 r越大 回归直线代表性大 r越小 回归直线代表性小 小大9.2
.5判定系数(coefficient of determination) 用 表示 是相关系数r的平方 用来测定回归方程拟合数据的好坏程度 范围在0与1之间 越大,线性回归效果就越好 9.3 应用相关和回归分析应注意的问题 在定性分析基础上进行定量分析 注意现象质的界限及相关关系作用的范围 将各种分析指标结合应用 尽可能使用大样本材料
献花(0)
+1
(本文系籽油荃面原创)