第8章:指标分析1. 算术平均值算术平均值又叫平均值(average),这个名称强调了算法。总和除以项目个数均值的计算公式为举例:速卖通10 0家鞋类银牌店铺某日订单情况 为了解速卖通鞋类银牌店铺销售情况,随机调研100家店铺,以下数据为此速卖通100家鞋类银牌店铺某日订 单情况(单位:个):平均值=3700?=5068/100=50.68一些非常大或非常小的数据会影响平均值的代表性,中位数可以避免这 个问题中位数是指将数据从小到大排列后,位于中间位置的那个数如果数据个数是奇数,中位数就是中间位置的那个数如果数据个数是偶数,中位数 是中间两个数的平均值奇数:1 2 3偶数:1 2 3 4 2.中位数 在100个数据中,位于第50和第51个的数据分别是 50和50,所以中位数 = (50+50)/2 =503. Mode 众数众数是指数据集中出现次数最多的那个数如果有两个数据都出现 了最多次数,即有两个众数。如果数据集中出现了多于两个的众数,众数就没有考察的意义无众数 原始数据: 10 5 9 12 6 8一个众数 原始数据: 6 5 9 8 5 5多于 一个众数 原始数据: 25 28 28 36 42 42 50 出现的次数最多 (10 次) 众数 = 50将总体分成相等的四个部分的测定数为四分位数。第一个四分位数 =Q1=排序后位于总体第25%位置 的数值第二个四分位数 =Q2=排序后位于总体第50%位置的数值= 中位数第三个四分位数 =Q3=排序后位于总体第75%位置的数值4 . 四分位数5. 四分位数间距从780到1500这个范围内的家庭人均月收入占总体的50%一半的家庭人均月收入在780到1500元之 间 四分位数间距等于第三个四分位数减去第一个四分位数,反映的是位于中间的50%的数据间距 【例】:10个家庭的人均月收入数据排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 Q1Q3IQR=Q3 -Q1=1500-780=720算术平均值平均值中位数将数据从小到大排列后,位于中间位置的那个众数众数是指数据集中出现次数最多的那 个数四分位数位置测度案例有两组学生成绩甲组:50 60 70 80 90乙组:60 65 70 75 80因此,为了全面反映数据的分布特征,不仅要计算数据的位置测度,还必须对数据的离散性进行测度。许多时候,位置测度掩盖了数据 的真实深度。“一个人在通过平均深度为1米的河流时淹死了”间隔10间隔5反映各观察值之间分散的程度离散趋势测度Range 全距Mea n Deviation 平均差Variance 方差Standard Deviation 标准差Coefficient of Va riation 变异系数全距是最大值和最小值的差异全距 = 最大值 – 最小值 全距= 91 - 22 = 699100?6. 全距7. 平均差1、各变量值与其平均数离差绝对值的平均数2、能全面反映一组数据的离散程度计算公式为 平均差的计算方法 例如:教育学专业99级学生教育测量学学科成绩如下:求这些学生分数的平均差。8. 方差定义:方差是各变量对其算术平 均数离差的平方的平均数方差又分为样本方差及总体方差样本方差用s2表示,计算公式如下: 总体方差用? 2,计算 公式如下:标准差等于方差的算术平方根样本标准差用 s 表示总体标准差用 ? 表示9. 标准差方差(标准差)用来衡量一批数据的波 动大小方差(标准差)越大,说明数据的波动越大方差(标准差)越小,说明数据的波动越小方差及标准差的意义10. 箱线图 用于显示未分组 的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值,即最大值、最小值、 中位数和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接箱线图的基本三要素箱子的 中间一条线,是数据的中位数,代表了样本数据的平均水平。箱子的上下限,分别是数据的上四分位数和下四分位数,意味着箱子包含50%的数据 ,因此箱子的高度一定程度上反映了数据的波动程度。箱子两端链接的线条,代表最大值和最小值分布的形状与箱线图此次课重点复习:描述统计— —统计量化指标全距最大值 – 最小值平均差方差样本方差,总体方差标准差样本标准差,总体标准差箱线图算术平均值平均值中位数将数据从小到大排列后,位于中间位置的那个众数众数是指数据集中出现次数最多的那个数四分位数位置测度 |
|