前言在数据挖掘的学习过程中,数据可视化是难以越过也是极为重要的一个部分。因此,在今天的博文分享中,笔者带来了与数据可视化相关的概念、基本思想、应用方向以及和数据挖掘的关系。同时,在第四部分中,笔者使用Smart Mining软件展示了数据可视化在数据挖掘过程中的一个实例。 一、数据可视化的概念数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。 数据可视化技术包含以下几个基本概念:
二、数据可视化的基本思想与应用方向1、基本思想 数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。 数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。 数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。 2、数据可视化的应用 数据可视化的开发和大部分项目开发一样,也是根据需求来根据数据维度或属性进行筛选,根据目的和用户群选用表现方式。同一份数据可以可视化成多种看起来截然不同的形式。数据可视化主要被应用于如下几个方面:
数据可视化的应用价值,其多样性和表现力吸引了许多从业者,而其创作过程中的每一环节都有强大的专业背景支持。无论是动态还是静态的可视化图形,都为我们搭建了新的桥梁,让我们能洞察世界的究竟、发现形形色色的关系,感受每时每刻围绕在我们身边的信息变化,还能让我们理解其他形式下不易发掘的事物。 三、数据挖掘与可视化技术数据挖掘和可视化及时两个相对独立的研究领域,但他们又联系密切。数据挖掘过程需要可视化技术的支持,可视化分析本身就是挖掘知识的过程。 数据挖掘可视化是指使用可视化技术在大量的数据中发现潜在有用的知识的过程。其中“可视”是指“将某些不可见的或抽象的事务表示成为看得见的图形或图像”;“可视化”是指使用计算机创建可视图像,从而为理解那些大量的复杂数据提供帮助。它包含了对于数据挖掘生命周期的三个阶段:数据准备、模型生成、知识使用的创造性的可视化表达。这也就暗示了将数据挖掘可视化分成四个部分,其中前三个部分对应与一个阶段,最后一个部分就是对数据挖掘整个应用过程的可视化,所有四个部分的目标都是为了提高信息和知识在工程师和数据挖掘流程之间交流的方便性。更进一步的描述如下:
四、数据挖掘可视化应用实例如上所述,可视化在数据挖掘中起到了至关重要的作用,下面笔者将以专家诊病模型为例,借助于Smart Mining软件,展示可视化探索对数据挖掘的重要意义。 (为简化文章,省略了本例中数据挖掘的其他过程,仅保留了笔者按照教程进行的可视化探索的实际操作过程, 原示例教程网址为http://wiki./pages/viewpage.action?pageId=17958343) 在进行预建模后,利用不同的图形对于数据分析有不同的作用,并根据分析两个分类型变量可以使用条形图、网络图或者交叉表,分析两个数值型变量可以使用散点图和分析一个数值型变量和一个分类型变量可以使用直方图的不同原则,确定分别使用交互条形图和交互散点图。本例中药物作为目标字段,性别、血压、胆固醇分别作为字符型字段,钠、钾含量作为数值型字段,分别选择条形图和散点图。 需要注意的是,在数据不是特别大的情况时,选用交互视图相比直接的散点图或条形图等无需提前配置字段,因而在考虑不同字段之间的相互关系时更为简便。 以药物作为目标字段,运行交互式条形图后如下: 观察数据发现,在本组数据集中,药物Y使用次数最多,可以得到的推测是Y药物对疾病有普遍的治疗作用或者疾病中能用Y治疗的人数很多。而药物B和药物C次数较少同为16次,这将导致使用现有数据对它们的规律学习会不完全,不能有效的区分药物B和C。可能会产生的后果是模型不稳定或过拟合。 继续考虑其他因素对目标字段的影响,首先考虑性别,更改配置中的颜色由性别控制,如下图: 可见性别对于药物的选择几乎没有影响,接着考察血压作为影响因素,如下图: 通过分析,从这个交互视图中我们可以发现,血压和药物字段有着强相关性,因为从图中可以看出使用药物B和药物A的人都是高血压(3表示高血压,2表示正常,1表示低血压),使用药物C的人都是低血压,正常血压只使用药物X或药物Y。这种很明细的规律反映出两个字段间存在很强的相关关系。 同理,胆固醇和选择药物之间也有一定相关性: 除此以外,对于药物影响的还有两个数值形字段,因而我们选用交互式散点图来研究其中的规律,工作流显示如下: 我们需要明白的是,在散点图中每一个点表示一个病例,且从图形化的方式判断相关性强弱的方法就是看图形中的规律,规律越明显,相关性就越强 从下图中可以看出血液中的钠和钾相关性很弱或者没有: 显然我们最想知道的还不是钠和钾的相关性,而是两者与药物的相关性,因为药物才是我们分析的目标。所以我们还想知道散点图中的每个病例使用的什么药物。因此,我们使用药物作为颜色区分,重新修正散点图。如下: 从图中可见,散点图下部都是浅红色,说明这部分病例使用的都是Y药物。这是很明显的规律,说明这里面有一种很强的关联。用数学的语言来描述,就是钠和钾的比例与药物有很强的相关性。因此,我们发现了一个很重要的变量就是钠和钾的比例。因此,我们可以派生一个变量:钠钾比例。 因此我们就能进行模型优化,从而得到另一个较好的结果。不得不提的一点是,通过亲身体验数据挖掘案例,在使用Smart Mining软件的过程中,笔者充分体会到了这款软件在拖拽使用工具方面体现出了极为人性化和简洁易上手的一面。 由此可见,数据可视化对于数据挖掘具有十分重要的价值与作用,是数据挖掘中不可或缺的重要工具之一。 注:本文正文部分由整理百度百科词条、援引罗文静《数据挖掘中可视化技术研究与实现》和其他电子资料,结合自己实际操作的经验而来,图片均由笔者制作,仅作学习笔记以供学习之用。 五、小结在今天的博文分享中,笔者整理了关于数据可视化的相关笔记。通过第四部分的案例展示,想必读者们对数据可视化的意义有了更深入的了解。在接下来的文章里,笔者将继续介绍数据预处理和数据挖掘中的经典算法,希望能与大家共同进步,领略数据挖掘的奥秘与神奇! 前言在数据挖掘的学习过程中,数据可视化是难以越过也是极为重要的一个部分。因此,在今天的博文分享中,笔者带来了与数据可视化相关的概念、基本思想、应用方向以及和数据挖掘的关系。同时,在第四部分中,笔者使用Smart Mining软件展示了数据可视化在数据挖掘过程中...
|
|