【原】《数据可视化基础》第十章：多组分类变量数据可视化(一)

医学数据库百科 2021-01-08

展开全文

以下部分是基于《Fundamentals of Data Visualization》学习笔记，要是有兴趣的话，可以直接看原版书籍：https:///dataviz/

对于比例可视化，上一章我们介绍了关于单纯一个分组的比例的可视化。但是我们经常也会需要两个分组的比例嵌套可视化的情况。在人们的健康状况方面，我们可以询问健康状况如何按婚姻状况进一步细分。这样的情况，我们可以使用的方法有：马赛克图(mosaic plots)，树图(treemaps)和并行流程图(parallel sets)。由于文章篇幅原因，我们这里就先介绍马赛克图以及树图。

错误的比例嵌套可视化

在这里我们使用匹兹堡的106个桥梁的数据集来说明几个错误的可视化的结果。该数据集包含有关桥梁的各种信息，例如桥梁的建造材料（钢，铁或木材）以及建立的年份。另外基于建成的年份，又可以把桥梁分成工艺桥梁(1870年之前的桥梁)、现代桥梁(1940之后的桥梁)、新兴桥梁（从1870年至1889年）和成熟桥梁（1890年至1939年）。

这个时候，如果我们想要同时可视化桥梁的建造材料以及一部分建造的年份的话，选择单纯分组的饼图是错误的。因为饼图所有的分面加起来必须为100%。但是此处所有的和加起来是135％。我们达到的总百分比超过100％。

造成这个问题的主要原因是因为我们重复计算了桥梁。我们在进行比例计算的时候，对于桥梁的建造材料(钢，铁或木头)其实就代表了所有数据组成。这三部分饼已经代表了100％的桥梁。剩下的桥梁建造年份则是相当于另外一个分组的重复计算了。在这个结果里面会有一部分重叠的情况，例如

如果我们选择不要求比例加到100％的可视化，则重复计算不一定是问题。如上一章所述，并排的条形图满足此标准。虽然这个图形能说明各个成分的占比，但是它不能立即表明所示的某些类别之间存在重叠的情况。

马赛克图和树图

每当我们有重叠的类别时，最好清楚地表明它们之间的相互关系。这可以通过马赛克图来完成。在马赛克图中，各个阴影区域的高度和宽度都不同。这里有一个马赛克图的关键条件：显示的每个分类变量必须覆盖数据集中的所有观测值。

马赛克图的绘制，我们首先沿x轴映射一个类别变量（此处为桥梁建造的时代），然后将x轴除以构成类别的相对比例。然后，我们将另一个类别变量映射到Y轴（此处为建筑材料），并在沿x轴的每个类别，将y轴除以构成y变量类别的相对比例。结果是一组矩形，这些矩形的面积与表示两个分类变量的每种可能组合的案例数成比例

桥梁数据集也可以以相关但独特的格式（称为树图）可视化。和马赛克图一样，树图对于嵌套的分类可视化都是通过矩形来进行呈现的。不同的地方在于。树突是先基于一个分类来形成多个矩形。进一步在每个矩形当中再基于另外一个分类的比例进行进一步的细分。例如，对于匹兹堡桥梁，我们可以首先将总面积细分为三个部分，分别代表木材，铁和钢这三种建筑材料。然后，我们进一步细分每个区域，以代表每种建筑材料所代表的建筑时代。

马赛克图与树形图有着密切的联系，但它们的侧重点和应用领域不同。例如上面的例子当中，马赛克图强调的是从左往右不同时代建筑材料的演变。而树突则强调了不同材料的总数的变化。

进一步而言，马赛克图主要强调了两个分别变量的不同的组合。原则上两者是存在相互组合的关系的。例如上面的例子，我们可以选择选择建筑材料（木材，铁，钢）和时间段（工艺，新兴，成熟，现代）来进行组合来描述每一座桥梁。例如：在新兴时代的木材的桥梁多少。而树状图主要体现的是包含关系。即分类变量之间不一定存在相互作用的关系。例如，我们可以将美国分为四个区域（西部，东北，中西部和南部），每个区域分为不同的州，但是一个地区中的州与另一地区中的州没有关系（图11.5）。

以上的两种图形，虽然可以可视化两组分类变量之间的关系。但是对于不同分类下的比较则比较困难。因为不同矩形绘制的基线是不一样的。例如，在新兴和成熟的桥梁之间，铁桥的数量相同（三个），但是在马赛克图中很难辨别，因为代表这两组三桥的两个矩形完全不同的形状。因此为了让读者产生视觉上的误导。建议在绘制这类图形的时候，把具体分组的数字添加上去。