分享

《数据可视化基础》第四章:可视化图形推荐

 医学数据库百科 2021-01-08




以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https:///dataviz/



本章提供了通常用于可视化数据的各种图表的快速直观概览。如果你要寻找一个可能不知道其名称的特定可视化图形,它既可以用作目录,也可以作为图表制作的灵感来源。


1

数目

数目的可视化最常见的还是使用垂直的和水平排列的条形图除了条形图之外,我们还可以使用点图来进行可视化这个点图是把点放到数量相对应的位置上来进行展示的。

如果对于有多组类别的计数。我们可以使用分组或者堆叠的条形图来进行展示。同时也可以把两个类别映射到X和Y轴上,这样就得到了热图来进行展示了。

另外,对于多组别的数目的展示的话,如果是想要展示不同交集之间的数目可以使用venn图和upset图。


2

分布
直方图和密度图提供了最直观的分布可视化效果,但都需要选择可视化参数,并且可能会产生误导。累积密度和q-q图始终如实地表示数据,但更难以解释。

当我们想一次可视化许多分布,或者如果我们主要对分布之间的整体变化感兴趣时,箱式图 (boxplot),小提琴图 (violins),带状图 (strip charts) 和正弦图(sina plots) 很有用。堆积的直方图 (Stacked histograms) 和重叠的密度曲线(overlapping densities) 可以对较小数量的分布进行更深入的比较,尽管堆积的直方图很难解释,最好避免。脊线图 (峰峦图, Ridgeline plots) 可以替代小提琴图,并且在可视化随时间变化的分布时通常很有用。

3

比例
我们使用饼图、并排的条形图以及堆叠的条形图来可视化比例。由于条形图可以分成水平也垂直的,所以也就分垂直和水平条形图了。饼图强调各个部分的总和并且可以突出显示简单的区分。但是每一部分之间的比较的话,并排的条形图可能更好一些。堆叠的条形图对于每一部分的比较不是很容易区分,但是在比较多组比例的时候很有用。

如果要进行多组比较的时候,这个时候饼图的空间往往就不够了。这个时候如果分组比较少的话,分组的条形图可以使用的。另外,堆叠的条形图基本使用所有情况,如果是比例沿连续性变量进行变化的时候,使用堆叠的密度图是可以的。
如果要可视化多个分类变量的数据数据的时候,那么马赛克图(mosaic plot)、矩阵树状图 (treemaps)以及并行曲线图是很有用的可视化途径。具体的使用条件我们会在后面的几章进行讲解。

4

x-y 相关性

当我们想显示两个连续性变量的变化的时候,可以使用散点图来进行可视化。如果我们有三个连续性变量,则可以将一个映射到点大小上,从而创建散点图的一种变体,称为气泡图。对于成对的数据,沿x和y轴的变量以相同单位测量,通常添加一条表示x = y的线通常会有所帮助。


对于大量的点,常规的散点图可能会由于点过多,就容易看不清趋势。在这种情况下,轮廓线,2D箱或六角箱可提供替代方案。另一方面,当我们要可视化两个以上的变量时,我们可以选择以相关图而不是基础原始数据的形式绘制相关系数。

当x轴表示时间或严格增加的变量(例如治疗剂量)时,我们通常绘制线图。如果我们有两个响应变量的时间序列,我们可以绘制一个连接的散点图,其中我们首先在散点图中绘制两个响应变量,然后连接对应于相邻时间点的点。我们可以使用平滑线来表示较大数据集中的趋势。



5

地理空间数据
显示地理空间数据的主要模式是地图。地图可以获取地球上的坐标并将其投影到平坦的表面上,这样地球上的形状和距离就可以用2D表示中的形状和距离来近似表示。此外,我们可以根据数据为地图中的区域着色,从而显示不同区域中的数据值。这样的图被称为choropleth。在某些情况下,根据其他一些数量(例如人口数量)使不同区域变形或将每个区域简化为正方形可能会有所帮助。这种可视化称为制图(cartograms)。


6

不确定性
误差棒用来表示某一类数据的可能的范围,我们可以在水平和垂直的方面来显示误差棒。

为了获得比使用误差线或分级误差线更详细的可视化效果,我们可以可视化实际的置信。这个时候可以使用眼图或者半眼图。

对于平滑的线图,误差条可以使用置信范围来表示。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多