分享

【香樟推文2816】一图胜千言:经济学者的数据可视化指南

 吕杨鹏 2023-04-29 发布于北京

原文信息

Schwabish, J. A. (2014). An economist's guide to visualizing data. Journal of Economic Perspectives, 28(1), 209-234.

图片来源:《神笔马良》海报

图片

一、引言

图片

在媒体高速发展的时代,一张抓人眼球的图像对信息传播有着至关重要的作用。相较于文字,通过图片获取的信息能够更多地被人们记住。经济学者也应该与时俱进,通过让人赏心悦目、印象深刻且具有说服力的图像来准确有效地传递信息。Jonathan A. Schwabish于2014年发表在JEP的文章为经济学者绘图提供了诸多建议。

图片

二、三个原则

图片

展示数据的方法千变万化,对初学者而言更容易乱花渐欲迷人眼,不得要领。文章建议初学者从三个方面进行思考。

首先,以最清晰的方式将重点数据呈现出来。数据是图表中最重要的部分,应该以清晰的方式向读者展示,但这并不意味着必须展示所有的数据。

其次,简洁地绘制图表;避免使用繁杂的视觉元素。比如沉重的网格线,不必要的标签和文字。当用一种颜色的不同色调就能完成区分时,使用■♦●×标记区分就显得繁琐。

最后,紧密结合文本和图表。图表应该能够作为文本的延申,以图例为例,定义点、线条、柱体或者记号含义的图例常被放在远离图表的角落,但将这些内容直接放在标题下方亦或在图片上直接进行图文结合的展示会更好。掌握这三方面要点,可以支持读者更快速、更轻松地获取信息。

图片

三、图形优化的案例

图片

1. 折线图

图片

图1A绘制了美国长期失业率与参与“补充营养援助计划”个体病例数量的回归关系,作者将图像分为了四个小区域,分别展示不同群体的结果。但是图1A存在以下问题:1.图表应该强调重要的数据,但图中最引人注目的图线却是0%的网格线,有失重点,我们应该着重表现图形的系数线和标准误差线。2.图表需要显示所有数据点,WE和SS图表中的数据可能超过了15%和-15%。3.仅从图表中无法获取AO、NC、WE、SS的具体信息,读者还需自行阅读论文来获取更多信息,这违背了图文紧密结合的原则

图片

图1B在图1A的基础上进行了以下的优化:1. 弱化了网格线的颜色,用加粗的黑线展示了最重要的回归系数,重点突出了系数的变化。2.减去了繁杂的元素,去掉了标签、百分号,并在标题下面标明了单位。3.标题“Caseloads”放在了图标上方,为扩写了AO、NC、WE、SS的拼写留出了空间,使得图信息表达更为清晰。

2. 散点图

图片

绘制散点图时需要标注图例,但是所有点都标注出来难免显得杂乱无章,难以让读者接收到有用的信息。比如图2A所对应的文章中提到了中国、哥斯达黎加、菲律宾、马来西亚和泰国五个国家,但想在图中直接找到以上国家的字母代码十分困难的。

图片

图2B中作者给了新的解决方案,将其他国家的标签去除,并加粗中国、哥斯达黎加、菲律宾、马来西亚和泰国五个国家的点,这样仍然可以显示出文章的重要信息。但这样的做法对于读者搜寻额外的数据信息造成了一定的困难,文章提供了一个解决思路,可以将完整数据发布在期刊或者自己的网站,或者在文章中添加补充表或附录。

3. 柱状图

图片

绘制条形图和柱状图第一条规则就是让柱体从零开始变化增长,以免不同柱体形状的数量不好分辨,作者以图3A为例指出了以下问题:1.没有从0开始,且从图上直观来看,可能并不会有人认为第二短的条是最长条的一半。2.图中使用不同颜色来区分不同柱状图,可能有用但没必要。

图片

图3B中修改了以上存在的问题:1.从0开始绘制条形图。2.将图形横向表示,为图表的标签腾出了空间,使得图表整体显得更加简洁、直观、准确。

4. 三维图表

图片

图4A使用三维图表(3D效果图),但并没有为读者提供更多有用的信息,反而使得图表变得更为复杂,甚至扭曲信息。最右一列标注了6%水平的数据高度,图形上看却几乎没有达到6%的标签线,会让读者产生困惑。

图片

图4B重新设计图形的排版:作者取消了三维效果,将图例与图形集成,并且利用一条更深颜色的水平线来刻画0%水平线。

5. 非平衡图表

图片

图5A使用橙色来表示女性、蓝色表示男性。这两种颜色可以引起人们对某些元素的注意。但原图存在三个问题:1.用不同的图形表示同类的变量,使用条形图表示女性所占百分比,使用菱形图表示男性所占百分比,很难比较位置(菱形)和长度(条形),且两者距离太远,无视觉联系。2.女性的柱状图比男性的菱形图所占的比例大得多,过分强调女性的数据,使得读者容易更倾向于分析女性占比的问题。3.网格线比较密集,Y轴的百分号是多余的,且由于X轴的标签是竖直排列,对读者阅览会造成一定程度的困难。

图片

图5B中作者重新设计了一下图形,显示了一种不常见的数据可视化表现方法。图5B中有以下几点值得注意:1.对男性和女性采用了同样的符号来标记,这有助于读者对二者进行比较。2.标题、单位和图例被整合放到图表的左上方,有助于读者阅览。3.将男女数据用浅灰色线条连接、国家标签水平旋转放置,这些都让读者能够更好地从图中获取信息。

6. 多线图

图片

在一副图中绘制了太多的系列信息,所以被称之为多线图,也有学者打趣称其为“意大利面条图”。如果在图中绘制了太多的信息,以图6A为例子难让读者预先关注任何一个系列。图例的位置远离数据,图例的顺序与线条的顺序不匹配。

图片

图6B将一张图拆分为四个单独的部分,并且分别加重其变化的趋势,强调了时间趋势和数字大小变化。由于已经标注好了百分比的数值,所以图形中舍弃了Y轴。

7. 饼图

7.1 静态饼图

图片

饼图便利易懂,能够明显地展示出个体与总体之间的关系。但是由于需要读者自己去观察比较每个部分所占的面积容易导致视觉偏差。图7A中按照字母顺序顺时针来表示,我们很容易可以看出C组占比为25%;而在图7B的排序中读者很难确定C组占比为25%,位置的变动就使得读者难以判断出每个部分的确切占比。

图片

如果仅仅想要表达出不同组别之间的区别,包括绝对数量和相对差异,那么条形图和柱状图可能是一种行之有效的方法。条形图和柱状图可以用来比较不同组别的差异,如图8B所示。

图片

饼图最初的目的就是比较每个部分与整体之间的关系,如图8C所示。但作者并不建议采用3D效果的饼图,因为图形有阴影会导致读者误判其所占据的真实比例。

7.2 动态饼图

图片

图9A采用了两个饼图来进行比对,但是饼图之间的对比并不能很好地表现出变化。图9A中1962年的总比例为98%:30% + 28% + 15% + 3% + 6% + 16%,这会对读者造成很大的误导。如果想要通过对比的话,采用成对柱状图会更显得为直观。

图片

在图9B中,由于在柱形图上标记了具体数值,所以去除了y轴,使得图形变得更为简洁。

图片

想表达的侧重点不同,我们可以采用不同的图形。如果想要更直观地表现出每个部分的变化,可以采用堆叠条形图。在图9C中,作者用同样的色块标记了同种类型的收入,然后用加重的线段连接了两段图形。

图片

除去横向对比,作者还提供了纵向对比的图形。图9D中采用坡度图来检验不同时间段各个部分的变换情况。在图9D中没有相互交互的线段,作者采用了深灰色来标注。而在有线段相互交叠的情况下,作者采用了橘色和加重的灰色来区分不同部分。最后,图9D中的斜率图也通过对两个垂直轴上的点进行配对来显示每个类别从第一年到最后一年的差异。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多