【原】《数据可视化基础》第四章：可视化图形推荐

医学数据库百科 2021-01-08

展开全文

以下部分是基于《Fundamentals of Data Visualization》学习笔记，要是有兴趣的话，可以直接看原版书籍：https:///dataviz/

本章提供了通常用于可视化数据的各种图表的快速直观概览。如果你要寻找一个可能不知道其名称的特定可视化图形，它既可以用作目录，也可以作为图表制作的灵感来源。

数目

数目的可视化最常见的还是使用垂直的和水平排列的条形图。除了条形图之外，我们还可以使用点图来进行可视化。这个点图是把点放到数量相对应的位置上来进行展示的。

如果对于有多组类别的计数。我们可以使用分组或者堆叠的条形图来进行展示。同时也可以把两个类别映射到X和Y轴上，这样就得到了热图来进行展示了。

另外，对于多组别的数目的展示的话，如果是想要展示不同交集之间的数目可以使用venn图和upset图。

分布

直方图和密度图提供了最直观的分布可视化效果，但都需要选择可视化参数，并且可能会产生误导。累积密度和q-q图始终如实地表示数据，但更难以解释。

当我们想一次可视化许多分布,或者如果我们主要对分布之间的整体变化感兴趣时，箱式图 (boxplot)，小提琴图 (violins)，带状图 (strip charts) 和正弦图(sina plots) 很有用。堆积的直方图 (Stacked histograms) 和重叠的密度曲线(overlapping densities) 可以对较小数量的分布进行更深入的比较，尽管堆积的直方图很难解释，最好避免。脊线图 (峰峦图， Ridgeline plots) 可以替代小提琴图，并且在可视化随时间变化的分布时通常很有用。

比例

我们使用饼图、并排的条形图以及堆叠的条形图来可视化比例。由于条形图可以分成水平也垂直的，所以也就分垂直和水平条形图了。饼图强调各个部分的总和并且可以突出显示简单的区分。但是每一部分之间的比较的话，并排的条形图可能更好一些。堆叠的条形图对于每一部分的比较不是很容易区分，但是在比较多组比例的时候很有用。

如果要进行多组比较的时候，这个时候饼图的空间往往就不够了。这个时候如果分组比较少的话，分组的条形图可以使用的。另外，堆叠的条形图基本使用所有情况，如果是比例沿连续性变量进行变化的时候，使用堆叠的密度图是可以的。

如果要可视化多个分类变量的数据数据的时候，那么马赛克图(mosaic plot)、矩阵树状图 (treemaps)以及并行曲线图是很有用的可视化途径。具体的使用条件我们会在后面的几章进行讲解。

x-y 相关性

当我们想显示两个连续性变量的变化的时候，可以使用散点图来进行可视化。如果我们有三个连续性变量，则可以将一个映射到点大小上，从而创建散点图的一种变体，称为气泡图。对于成对的数据，沿x和y轴的变量以相同单位测量，通常添加一条表示x = y的线通常会有所帮助。

对于大量的点，常规的散点图可能会由于点过多，就容易看不清趋势。在这种情况下，轮廓线，2D箱或六角箱可提供替代方案。另一方面，当我们要可视化两个以上的变量时，我们可以选择以相关图而不是基础原始数据的形式绘制相关系数。

当x轴表示时间或严格增加的变量（例如治疗剂量）时，我们通常绘制线图。如果我们有两个响应变量的时间序列，我们可以绘制一个连接的散点图，其中我们首先在散点图中绘制两个响应变量，然后连接对应于相邻时间点的点。我们可以使用平滑线来表示较大数据集中的趋势。

地理空间数据

显示地理空间数据的主要模式是地图。地图可以获取地球上的坐标并将其投影到平坦的表面上，这样地球上的形状和距离就可以用2D表示中的形状和距离来近似表示。此外，我们可以根据数据为地图中的区域着色，从而显示不同区域中的数据值。这样的图被称为choropleth。在某些情况下，根据其他一些数量（例如人口数量）使不同区域变形或将每个区域简化为正方形可能会有所帮助。这种可视化称为制图(cartograms)。

不确定性

误差棒用来表示某一类数据的可能的范围，我们可以在水平和垂直的方面来显示误差棒。

为了获得比使用误差线或分级误差线更详细的可视化效果，我们可以可视化实际的置信。这个时候可以使用眼图或者半眼图。

对于平滑的线图，误差条可以使用置信范围来表示。