分享

【数据可视化·图表篇】散点图

 爱幻想的笨熊 2017-07-25

大家好,上周介绍完饼图之后,您有没有亲自动手尝试一下呢?


今天小数要带大家熟悉的是散点图,本文图表生成所用工具仍然是大众熟知的 Excel


说到散点图,它既能用来呈现数据点的分布,表现两个元素的相关性,也能像折线图一样表示时间推移下的发展趋势。可以说是最灵活多变的图表类型。


大数据时代,人们更关注数据之间的相关关系而非因果关系。那么如何考量各变量之间的相关关系呢?散点图就是一种最直观简单的形式。


散点图的特点?

  • 适用于展现两个或三个变量之间的关系

  • 数据量越大,散点图发挥的作用越好

  • 需要关注离群点(异常点)对整体的影响 

普通散点图与可视化


在实际应用中使用频率最多的是二维散点图和三维散点图,而三维散点图又与气泡图有密切关系,我们后面会提到。


二维散点图的制作相对简单,无需特殊设置。可视化方面其实也还是咱们的老套路,这里再通过一个例子带大家简单过一遍。


小数收集了某餐馆服务满意度与排队时间相关的 15 组数据,导入 Excel ,直接生成散点图如下:



可视化操作步骤:

  • 背景颜色应用(还是以 DataHunter 的 logo 绿为主哦~)

  • 字体颜色、数据点颜色调整

  • 淡化坐标网格线

  • 插入趋势线。这是散点图的特色,为了分析两个变量之间的关系,我们通常会引入趋势线,Excel 中目前给我们提供了线性、指数、线性预测、双周期移动平均等多种类型选择。

现实操作中判断两个变量之间的关系类型,还需要引入回归分析等方法,我在这里只是作为可视化的一个简单举例,所以就直接插入了线性趋势线。


优化后如下图所示:




曲线图


在 Excel 散点图分类中,我们还可以看到一类变体的散点图——曲线图。经常被用来表示某个变量随时间变量变化的趋势,与折线图的功能类似。


自己最近 30 的步行数作为数据源,然后生成曲线图


这里不再赘述可视化过程,与普通散点图基本相同(通过线条填充半透明处理、背景渐变填充、日期格式和坐标轴调整等)




气泡图


气泡图与散点图最直观的区别为:散点图中的数据点长得都一样,气泡图中的气泡却大小不同。因为气泡图在原先散点图的基础上引入了第三个值来控制气泡的大小。


举个例子,我将某校 30 名学生的期末成绩与其对应的出勤率作为x值和y值,并引入“去图书馆的时间”作为z值,默认生成气泡图如下:




气泡挤在一起了,怎么办呢?


调整坐标轴,将出勤率和分数的最小值和最大值进行修改,调整相应颜色,然后再插入趋势线,就得到了下图:




可以看出,除了出勤率与分数之间有简单的正相关关系外,分数越高的同学,去图书馆的时间也相对较高(气泡普遍更大)。


最后再强调一下:散点图实际应用中更适合大范围的数据,本篇文章中的举例只是为了说明问题,所以数据量都不大。


小结


  • 散点图适用于研究大规模数据中两个变量之间的相关关系

  • 气泡图可用于研究展示三个变量之间的关系

  • 曲线图作为一种特殊的散点图,适用于研究连续变量的变化趋势。

题外话:其实看到这些散点图,总让小数想起一款大圆吃小圆的网页游戏,当初我也是沉溺其中,无法自拔,它的页面如下图,游戏规则挺有意思的,感兴趣的小伙伴可以去体验一下~



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多