集中趋势只是数据组特征的一方面,而另一方面是离散趋势,也就是围绕中心点(平均值)的变动幅度。例如,图 7-24 所示的这些学生的体重都是 45kg,均值是 45kg,每个人的体重都没有变动趋势,直方图就是一个窄长条,如图 7-25 所示。如果这些学生的体重是图 7-26 所示的情况,直方图就会变成图 7-27 所示的形态。假设有如图 7-28 所示的 3 组数据,这 3 组数据的均值虽然都是 50,但是 B 组的变动幅度最大,A 组较小,C 组完全没有变动幅度。本节重点讨论的是离散趋势的 3 个描述方法,分别是极差、方差和标准差。另外,四分位差也是描述数据离散趋势的常用方法。极差是 3 个概念中最简单、最笼统的指标,即数据组中最大值和最小值之差,在图 7-28中,A 组的极差是 4,B 组的极差是 40,C 组的极差是 0,计算方法如图 7-29 所示。方差和标准差如何来度量分散程度呢,现有一组人群的体重数据如图 7-30 所示。这组体重数据的均值是 38.7,每一个数据相对平均值都有一定的变动幅度。如图 7-31 所示,图中每个点代表一个人的体重,右边的垂线是平均值所在的平均线,左边的垂线是其中一个数据点所在直线,两条垂线间的距离是数据点到平均线的距离,方差是所有数据点到平均线距离的平方的均值。借助这个表中得到的总和,可以求得距离的均值:1911/21=91,这个结果就是方差,将 91 开方后得到 9.5 就是标准差。注意:由于统计总体和样本的差异,计算均值时用的数值个数不是 22 个,而是22-1,即 n-1 个(请参阅 10.1.1 节内容)方差已经足够描述数值与均值的偏离程度,为什么又要计算标准差呢?虽然方差可以很好地描述数据与均值的变动幅度,但是方差与要描述的数据的单位是不一致的,这样的处理结果并不符合人们的直观思维习惯,而标准差与真实数据的单位是相同的。因此很多场合大家更倾向于使用标准差。例如一个班级有 50 名学生,经过统计数学平均分是 80 分,标准差是 10,其实际意义是每个学生的分数与平均分的平均差距是 10 分;方差是 100,是标准差的平方,没有单位,即每个学生的分数与平均分的平均差距的平方是 100,这个解释没有任何实际意义,通常使用标准差进行描述更具有实际意义也更容易理解。从这一点来说,方差只是一个中间的计算过程,它的目的是平方运算后去掉负号,再开方得到原单位偏差值。当然,方差的作用绝不仅限于此,在数据分析中它有很多重要的用途。(1)标准差是以均值为中心的变动幅度测量,如果是以中位数为中心,标准差是无效的。 (2)如果数据组的所有数据都相等,标准差为 0,否则必然是大于 0 的数值,而且数据越分散标准差越大,越集中标准差越小。标准差在描述数据中有极其重要的作用,希望每一位读者能深入体会其实际意义。某公司的销售部门在月底统计每个销售人员的业绩,如图 7-33 所示。在 D2 单元格输入以下公式,得到标准差为 10 185。在 E2 单元格输入以下公式,得到方差为 103 740 510。注意,Excel 中的标准差函数有两个,分别是 STDEV.P 和 STDEV.S。STDEV.P 计算的是总体标准差,STDEV.S 计算的是样本标准差(请参阅 8.1.1 节)。计算方法的差别在于,总体标准差用的数值个数是 n,样本标准差用的数值个数是 n-1。本例中,全部销售人员是一个总体,所以用STDEV.P计算标准差。从计算结果可以知道,每个销售人员的业绩与全体员工业绩均值的平均差距是 10 185 元,均值是 21 692 元,标准差大约是均值的一半,说明整个销售部门的员工销售能力差距较大。标准差是以均值为中心的变动幅度测量,如果以中位数的变动幅度测量需要借助四分位间距。四分位间距也称为四分位差,基本原理是把数据组内的数值从小到大排序,按照数值个数等分成 4 组,然后再继续观察变动幅度,具体等分方法如下。(1)图 7-35 中是 23 名学生的语文成绩,按从小到大排列。首先在中位数处将数据组分成高低分两组,由于中位数恰好是其中的一个数值 80,而不是某个中间位置,目的是将整个数据组等分,无论将中位数划分到哪个组都不再相等,所以划分原则是将中位数既分配给高分组也分配给低分组,这样所有学生的成绩就分成了两组,每组数值个数为 12。 (2)低分组的中位数是 72,称作第一四分位数,也称为下四分位数,通常记作 Q1。高分组的中位数是 83,称作第三四分位数,也称为上四分位数,通常记作 Q3。原数据组的中位数 80 也称为第二四分位数,记作 Q2。 (3)Q3 与 Q1 距离称为四分位间距,记作 IQR。在本例中,IQR= Q3-Q1=83-72=11。IQR 展示的是中间一半数据的离散程度,数值越大越分散,反之数值越小越集中。同时IQR 处在数据中段且不受极端值的影响,能在一定程度上表现整体数据的离散程度。箱形图是由著名统计学家 John W. Tukey 发明的,借助箱形图可以更直观地观察四分位数。以图 7-35 中的数据为例来说明。找出 Q1、Q3 和中位数的位置,以 Q1 和 Q3 为两边画一个矩形,以中位数的位置在矩形中画一条直线,如图 7-36 所示。从矩形两侧分别延长出两条线,延长线的长度为 1.5 倍的 IQR,如图 7-37 所示。左端点和右端点分别称作下限和上限,需要注意的是,此处上限和下限并不是数据组的最大值和最小值,而是人为规定的一个界限,在界限以内的值是正常值,超过界限以外的是异常值。图 7-37 中最左侧的点是该组数据中唯一没有落在上下限以内的点,是异常值。箱形图不受异常值影响,能够准确描述数据的离散程度,非常适合数据组之间的对比。而且箱形图可以横着画,也可以竖着画,只要保证对比的数据组用统一的刻度即可,如图 7-38 所示。示例 7-2 计算四分位数和制作箱形图来检验超市 SKU 调整效果有一家新开业的超市,由于老板经验不足,前3 个月对商品数量一直在做调整。现在老板希望对这一季度的商品数量进行分析,如图 7-39 所示。需要给每一个月数据计算四分位数并创建箱形图,并且要求在同一个图表中展示,以方便对比,步骤如下。计算四分位数的方法如图 7-40 所示。具体方法如下。在 G2 和 G4 单元格分别输入以下公式,并分别向右复制填充到 G2:I2 单元格区域和 G4:I4 单元格区域。计算出三个月的上四分位分别为 29.5、56.75和 72,下四分位数分别为 73.75、89.25 和 83。步 骤 2单击【插入】选项卡中的【插入统计图表】→【箱形图】命令,即可生成箱形图,如图7-41所示。
|