分享

Excel应用大全 | 离散趋势

 hercules028 2022-02-23
集中趋势只是数据组特征的一方面,而另一方面是离散趋势,也就是围绕中心点(平均值)的变动幅度。例如,图 7-24 所示的这些学生的体重都是 45kg,均值是 45kg,每个人的体重都没有变动趋势,直方图就是一个窄长条,如图 7-25 所示。
Image
7-24体重相同的学生
Image
7-25体重相同的直方图
如果这些学生的体重是图 7-26 所示的情况,直方图就会变成图 7-27 所示的形态。
Image
7-26体重差异大的学生
Image
7-27体重差异大的直方图
量化描述数据这种分散状态的是方差和标准差。
假设有如图 7-28 所示的 3 组数据,这 3 组数据的均值虽然都是 50,但是 B 组的变动幅度最大,A 组较小,C 组完全没有变动幅度。
量化描述这种变动幅度的是极差。
Image
7-28 3 组数据
本节重点讨论的是离散趋势的 3 个描述方法,分别是极差、方差和标准差。另外,四分位差也是描述数据离散趋势的常用方法。
Image

极差
极差是 3 个概念中最简单、最笼统的指标,即数据组中最大值和最小值之差,在图 7-28中,A 组的极差是 4B 组的极差是 40C 组的极差是 0,计算方法如图 7-29 所示。
Image
7-29极差计算方法
极差可以直观看到数据组的范围,但是不够精确。
方差和标准差
Image
ENJOY THE SUMMER

1. 方差和标准差的实际意义
方差和标准差如何来度量分散程度呢,现有一组人群的体重数据如图 7-30 所示。
Image
7-30体重数据
这组体重数据的均值是 38.7,每一个数据相对平均值都有一定的变动幅度。
如图 7-31 所示,图中每个点代表一个人的体重,右边的垂线是平均值所在的平均线,左边的垂线是其中一个数据点所在直线,两条垂线间的距离是数据点到平均线的距离,方差是所有数据点到平均线距离的平方的均值。
Image
图7-31体重分布图
7-32 展示了方差的计算过程:

Image
7-32 距离平方的计算步骤
借助这个表中得到的总和,可以求得距离的均值:1911/21=91,这个结果就是方差,将 91 开方后得到 9.5 就是标准差。
注意:由于统计总体和样本的差异计算均值时用的数值个数不是 22 而是22-1n-1 请参阅 10.1.1 节内容
方差已经足够描述数值与均值的偏离程度,为什么又要计算标准差呢?虽然方差可以很好地描述数据与均值的变动幅度,但是方差与要描述的数据的单位是不一致的,这样的处理结果并不符合人们的直观思维习惯,而标准差与真实数据的单位是相同的。因此很多场合大家更倾向于使用标准差。
例如一个班级有 50 名学生,经过统计数学平均分是 80 分,标准差是 10,其实际意义是每个学生的分数与平均分的平均差距是 10 分;方差是 100,是标准差的平方,没有单位,即每个学生的分数与平均分的平均差距的平方是 100,这个解释没有任何实际意义,通常使用标准差进行描述更具有实际意义也更容易理解。从这一点来说,方差只是一个中间的计算过程,它的目的是平方运算后去掉负号,再开方得到原单位偏差值。当然,方差的作用绝不仅限于此,在数据分析中它有很多重要的用途。
标准差的性质:
1标准差是以均值为中心的变动幅度测量如果是以中位数为中心标准差是无效的。 
2如果数据组的所有数据都相等标准差为 0否则必然是大于 0 的数值而且数据越分散标准差越大越集中标准差越小
标准差在描述数据中有极其重要的作用,希望每一位读者能深入体会其实际意义。
2. 在 Excel 中计算数据组的方差和标准差
某公司的销售部门在月底统计每个销售人员的业绩,如图 7-33 所示。
Image
7-33某公司销售人员业绩
计算标准差和方差如图 7-34 所示。
Image
7-34计算销售人员业绩的标准差与方差
D2 单元格输入以下公式,得到标准差为 10 185
=STDEV.P(B2:B12)
E2 单元格输入以下公式,得到方差为 103 740 510
=POWER(D2,2)
=D2^2
注意,Excel 中的标准差函数有两个,分别是 STDEV.P STDEV.SSTDEV.P 计算的是总体标准差,STDEV.S 计算的是样本标准差(请参阅 8.1.1 节)。计算方法的差别在于,总体标准差用的数值个数是 n,样本标准差用的数值个数是 n-1
本例中,全部销售人员是一个总体,所以用STDEV.P计算标准差。从计算结果可以知道,每个销售人员的业绩与全体员工业绩均值的平均差距是 10 185 元,均值是 21 692 元,标准差大约是均值的一半,说明整个销售部门的员工销售能力差距较大。

四分位间距
1. 四分位数
标准差是以均值为中心的变动幅度测量,如果以中位数的变动幅度测量需要借助四分位间距。
四分位间距也称为四分位差,基本原理是把数据组内的数值从小到大排序,按照数值个数等分成 4 组,然后再继续观察变动幅度,具体等分方法如下。
17-35 中是 23 名学生的语文成绩按从小到大排列首先在中位数处将数据组分成高低分两组由于中位数恰好是其中的一个数值 80而不是某个中间位置目的是将整个数据组等分无论将中位数划分到哪个组都不再相等所以划分原则是将中位数既分配给高分组也分配给低分组这样所有学生的成绩就分成了两组每组数值个数为 12。 
2低分组的中位数是 72称作第一四分位数也称为下四分位数通常记作 Q1高分组的中位数是 83称作第三四分位数也称为上四分位数通常记作 Q3原数据组的中位数 80 也称为第二四分位数记作 Q2。  
3Q3 Q1 距离称为四分位间距记作 IQR在本例中IQR= Q3-Q1=83-72=11
Image
图7-35确定四分位数
IQR 展示的是中间一半数据的离散程度,数值越大越分散,反之数值越小越集中。同时IQR 处在数据中段且不受极端值的影响,能在一定程度上表现整体数据的离散程度。
2. 箱形图
箱形图是由著名统计学家 John W. Tukey 发明的,借助箱形图可以更直观地观察四分位数。以图 7-35 中的数据为例来说明。
找出 Q1Q3 和中位数的位置,以 Q1 Q3 为两边画一个矩形,以中位数的位置在矩形中画一条直线,如图 7-36 所示。
Image
图7-36箱形图的主体
从矩形两侧分别延长出两条线,延长线的长度为 1.5 倍的 IQR,如图 7-37 所示。左端点和右端点分别称作下限和上限,需要注意的是,此处上限和下限并不是数据组的最大值和最小值,而是人为规定的一个界限,在界限以内的值是正常值,超过界限以外的是异常值。图 7-37 中最左侧的点是该组数据中唯一没有落在上下限以内的点,是异常值。
Image
图7-37箱形图
箱形图不受异常值影响,能够准确描述数据的离散程度,非常适合数据组之间的对比。而且箱形图可以横着画,也可以竖着画,只要保证对比的数据组用统一的刻度即可,如图 7-38 所示。
Image
7-38多组箱形图的对比
3. 用 Excel 计算四分位数和制作箱形图
示例 7-2 计算四分位数和制作箱形图来检验超市 SKU 调整效果
有一家新开业的超市,由于老板经验不足,前3 个月对商品数量一直在做调整。现在老板希望对这一季度的商品数量进行分析,如图 7-39 所示。
Image
7-39某超市的商品数量
需要给每一个月数据计算四分位数并创建箱形图,并且要求在同一个图表中展示,以方便对比,步骤如下。
计算四分位数的方法如图 7-40 所示。具体方法如下。
G2 G4 单元格分别输入以下公式,并分别向右复制填充到 G2:I2 单元格区域和 G4:I4 单元格区域。
=QUARTILE.EXC(B3:B32,1)
=QUARTILE.EXC(B3:B32,3)
计算出三个月的上四分位分别为 29.556.7572,下四分位数分别为 73.7589.25 83
Image
图7-40计算四分位数
插入 3 组数据的箱形图,步骤如下。
步 骤 1选中 B2:D32 单元格区域。
步 骤 2单击【插入】选项卡中的【插入统计图表】→【箱形图】命令,即可生成箱形图,如图7-41所示。
Image
7-41使用 Excel 生成箱形图
对箱形图进行美化,如图 7-42 所示。
Image
7-42新开超市前 3 个月的商品数量箱形图
Image
END
Image

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多