分享

三分钟掌握盒须图,轻松了解数据分布

 PowerBI星球 2021-06-22

数据分析时还常常需要观察数据的分布状态,或者查看某一个个体在整体的表现如何,这都需要用到统计分布图,Box Whisker chart就是其中的一种。

Box Whisker chart翻译过来就是盒须图,也被称为箱线图、盒图等,它可以用来反映一组或者多组数据的分布情况,因形状像长着胡须的盒子而得名。

盒须图中的元素

先来看看盒须图的外观,

这是一个标准的盒须图,因为其包含的元素较多,我标记了每条线代表的含义。

  • 盒子中间的一条线,代表数据的中位数(Q2);

  • 盒子的上方和下方线,如果数据从大到小排列,分别为数据的上四分位线(Q1)和下四分位线(Q3),盒子中内包含50%的数据;

  • 上四分位线和下四分位线的差距,就是盒子的高度,称为四分位距(IQR);

  • 盒子内反映了半数的数据分布,因此盒子的高度反映了这些数据的波动状态,盒子越扁表示数据分布比较集中;

  • 伸出去的胡须的上下边缘一般代表了数据的最大值和最小值(也可以设置为1.5倍IQR等),伸出去的胡须越短,也说明数据比较集中;

  • 盒子中间的点为数据的平均值,作为参考,在观察数据分布时,它并不是太重要。

盒须图中的这些统计学概念,你可能没有学过统计学,但这些元素的含义并不难理解,至于如何做分位计算和画图,PowerBI有专门的图表来帮助你。

制作盒须图

在市场中搜索关键字"box",最上方两个就是常用的盒须图,

把两个图都添加进来。

假设有个考试成绩表,其中有三个班级,

要观察三个班级的考试成绩分布,用这两个盒须图来看看是怎么做的。


Box and Whisker chart

分别把班级、姓名和分数三个字段拖入到相应的框中,

一个简单的盒须图就做出来了,

它可以自动快速计算出各元素的数据,从上面这个盒须图上,明显可以看出:

  • 一班的学习成绩整体都好于二班和三班,75%的学生在80分以上,最高分接近满分;

  • 二班的成绩中等,分布较为集中,没有太差,也不算好;

  • 而三班的整体成绩最差,大部分学生都在70分以下,成绩分布极不均匀,在这个差班里也有学习成绩好的,最高分甚至超过二班的最高分。

Box and Whisker chart制作盒须图比较简洁高效,它的格式设置也较为丰富,

作图的时候可以都尝试一下,做出不同的显示效果,这里不再详细介绍。


Box and Whisker chart By MAQ Software

MAQ的图表总是相对强大一些,当然作图时也更复杂,依然用上图的数据,

其效果如下,

它可以设置盒子内相对于中位数的上下区域颜色、平均值的形状等,这些不是它的主要特点,与上面的图表不同的是还可以多个分组类别同时显示。

以上只是比较了一个科目的成绩,如果要同时比较多个科目的成绩,可以继续添加在分类2的框中添加字段[科目]。

每科成绩在一个框中显示,便于每科成绩的不同班级比较。

还可以在分组1和分组2调换一下字段顺序,比如科目放在分组1,班级放在分组2,效果如下,

这样就便于在每个班级内部,比较各科成绩的分布情况。

这个图表的另外一个特点是,还可以设置为横向显示,

它的自定义程度比较高,各项格式设置比较精细,如果是日期格式的轴,还可以按粒度向下钻取,十分灵活,数据分析需要用到盒须图时,推荐使用该图。


以上只是一个简单的示例,可以看出它作图十分迅速,外观非常简洁,但却可以在有限的区域内同时展示多项信息,大大节省了报告空间,所以盒须图广泛用于统计分布的信息展示,比如观察员工薪资分布情况,单笔订单金额分布或者人口年龄分布等等。

在使用PowerBI过程中遇到困惑,欢迎来知识星球内提问,和一群优秀的人一起,每日精进。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多