可视化的制作大多由个人或者小型团队完成,而且不仅仅只是实现可视化,在可视化之前的数据处理也是必不可少的环节。这一篇主要讲述可视化之前的数据处理环节。可视化非常重要的一步就是处理数据,不要轻易的认为可视化才是最为重要的步骤,专业的个人或者团队知道,前期的数据处理才是最为重要的,一旦数据处理出现问题,那么不论得出怎样的结论都是错误的,因此在许多可视化项目中前期的数据处理最为耗时间,甚至超过可视化需要花费的时间。 收集数据通常获取数据分为两个方面,一个方面是需求方直接给予数据,数据将会以我们满意的方式呈现在我们面前,但是请注意,这并不意味着我们可以直接使用这份整理好的数据,只要有人为参与的事情总是有可能出现问题,想想第一次学编程,找半天程序无法运行的原因只是因为你少打了一个冒号,收集数据过程中依然也有可能出现数据错误的问题,这种错误如果不提早发现,即使可视化完成了,传递给我们的信息也是错误的。因此前期的检查是必不可少的环节。 Google搜索引擎,搜索引擎之强大,你几乎能在这里搜索到所有相关的数据。学术报告、论文等也是重要的数据来源通道之一。国内也有不少大学设有可视化机构,专门从事可视化方面的研究。综合类数据,各类网站、应用开发接口(API)也是数据获取来源的重要渠道。
很多情况下数据并不是等着你来拿的,而是需要一番折腾,例如通过编程直接在网上抓取,这时候就需要一些编程能力了,请注意不要以为编程很难,而直接跳过此处,事实上有些代码是直接可以使用的,只是需要修改一些小东西即可,况且现在开源软件可供使用,真正意义上讲并没有太复杂,本文中并没有涉及到具体的代码,详细方法可阅读《鲜活的数据》第二章的2.1.3小节。 数据的格式当我们获取到数据我们希望以什么样的格式保存出来呢,不同的数据收集工具获取到的数据格式不尽相同,这在一定程度上取决于你的目的是什么。
格式转换在数据处理之后并不一定获取到想要的格式,如果你需要JSON格式的文件,然而现在只有带分隔符的文本给到你,那么就需要一些好的工具来转换格式了,这种情况非常常见。
我们在普通情况下是不会涉及到编程的,除非你想作为一名专业的可视化人员,那就必须要掌握。文中介绍的大部分软件其实足以让我们应对日常生活中的各种数据处理的问题,而且方便快捷。
|
|