作者:visa 出处:https:///post/6922364405111848967 定义- 高维多元数据(Multidimensional Multivariate Data)指每个数据对象有两个或两个以上独立或者相关属性的数据。
- 高维 (Multidimensional)指数据具有多个独立属性
- 多元(Multivariate) 指数据具有多个相关属性。
- 由于研究者在很多情况下不确定数据的属性是否独立,因此通常简单地称之为多元数据。
- 举个例子
- 选购笔记本电脑时需要评估不同型号电脑的配置,如CPU、内存、硬盘、屏幕和重量等参数。每个参数是描述电脑的一个属性,所有参数组成的配置是一个多元数据。
- 如何选购这是一个典型的基于多元数据决策的例子。
常规可视化方法- 二维和三维数据可以采用一种常规的可视化方法表示。
- 散点图:将各个属性 的值映射到不同的坐标轴,并确定各数据点在坐标系中的位置,当维度超过三维时,可通过各种视觉编码来表示额外的属性,例如颜色、大小、形状等。
- 弊端
- 视觉编码的种类有限
- 过多或者过于复杂的视觉编码会降低可视化的可读性。
- 解决方法
- 在低维度的空间 (通常是二维空间)内显示多元数据。
多元数据可视化的三类基本方法空间映射散点图的本质是将抽象的数据对象映射到二维的直角坐标系表示的空间,面向多元数据,散点图的思想可泛化为: 采用不同的空间映射方法将多元数据对象布局在二维平面空间中,数据对象在空间中的位置反映了其属性及相互之间的关联,而整个数据集在空间中的分布则反映了各个维度之间的关系及数据集的整体特性。 散点矩阵图 从图中的可以清晰地发现,随着马力和车重的增加,每加仑里程数(MPG)将大大降低。 表格透镜- 表格透镜(Table Lens)方法是对传统使用表格呈现多元数据(如Excel等软件)方法的扩展
- 它采用与传统方法类似的映射方法:每个数据对象由一行表示,每列表示一个属性。与传统方法不同的是,表格透镜方法并不直接列出数据在每个维度上的值,而是将这些数值用水平横条或者点表示。由于点或横条占用的空间较少,可以在有限的屏幕空间中表示大量的数据和属性,同时方便用户对数据对象和各个属性进行快速的比较。
平行坐标- 被广泛使用于多元数据的可视化及分析领域。
- 在传统的数据可视化方法中,坐标轴相互垂直,每个数据对象对应于坐标系中的一个点。
- 平行坐标方法采用相互平行的坐标轴,每个坐标轴代表数据的一个属性,因此每个数据对象对应一条穿过所有坐标轴的折线
- 平行坐标是一种重要的多元数据可视化分析工具,它不仅可以揭示数据在每个属性上的分布,还可以描述相邻两个属性之间的关系。 汽缸(Cylinder)数量较多的车,每 公升里程相对较少,但是马力较大
降维- 当数据维度非常高时(例如,超过50维),各类可视呈现方法都无法清晰地表示所有数据细节。
- 通过线性或非线性变换将多元数据投影 (project)或嵌入(embed)至低维空间(通常为二维或三维),并保持数据在多元空间中的特征,即在低维空间中尽量保持数据在多元空间 中的关系或特征。这种策略称为降维。
Chernoff Faces- 该方法采用模拟人脸的图标来表示数据对象,不同数据映射为人脸的不同部位和结构,如脸的大小、眼睛的大小等。
- 美国各州犯罪率 数据的例子,其中脸的长度表示谋杀案的发生率,脸的宽度表示强奸案的发生率,等等。Chernoff Faces的出发点是我们的视觉和大脑非常擅长于人脸识别,能够察觉脸部非常细微的区别,因此,我们也能通过观察 模拟人脸的图标来察觉数据对象间的区别。
非结构化与异构数据的可视化非结构化- 数据的复杂度并不仅仅来自于数据高维度特性,还源自数据的非结 构性和异构性。
- 常规的关系型数据库处理具有明确结构、可有效存储于二维数据库表中的结构化数据。
- 非结构化数据(文本、时间、日志等)无法采用这种形式表示。
- 非结构化数据不但大量存在, 而且蕴涵巨大价值。
异构数据- 异构数据指同一个数据集中存在结构或者属性不同的数据的情况。
- 异构数据通常可采用网络结构进行表达。
- 拓扑
- 是研究几何图形或空间在连续改变形状后还能保持不变的一些性质的一个学科。它只考虑物体间的位置关系而不考虑它们的形状和大小。
不确定性的可视化方法统计学家发明了众多不确定性可视化方法,如误差条形图、盒须图等。可视化领域也将不确定性可视化列为可视化十大核心研究问题之一,并提出众多新的不确定性可视化方法,如流场雷达图、基于视觉元素编码的不确定性可视化方法等。 图标法在误差条图中,横轴通常用于表示数据实体,而纵轴则表示每个数据实体的统计特征。在大多数情况下,纵轴至少由三个值组成,包括均值、下限误差值和上限误差值。 采用箭头表示风场中每个采样点上风的方向,箭头长度表示风的强度,箭头 宽度指示风向的变化范围,即风向的不确定性。纤细的箭头表明不确定性较小,而粗壮的箭头则说明不确定性较大。
|