噼里啪啦脆 / 待分类 / 用可视化讲故事(二)

0 0

   

用可视化讲故事(二)

2016-06-02  噼里啪啦脆

可视化的制作大多由个人或者小型团队完成,而且不仅仅只是实现可视化,在可视化之前的数据处理也是必不可少的环节。这一篇主要讲述可视化之前的数据处理环节。可视化非常重要的一步就是处理数据,不要轻易的认为可视化才是最为重要的步骤,专业的个人或者团队知道,前期的数据处理才是最为重要的,一旦数据处理出现问题,那么不论得出怎样的结论都是错误的,因此在许多可视化项目中前期的数据处理最为耗时间,甚至超过可视化需要花费的时间。

收集数据

通常获取数据分为两个方面,一个方面是需求方直接给予数据,数据将会以我们满意的方式呈现在我们面前,但是请注意,这并不意味着我们可以直接使用这份整理好的数据,只要有人为参与的事情总是有可能出现问题,想想第一次学编程,找半天程序无法运行的原因只是因为你少打了一个冒号,收集数据过程中依然也有可能出现数据错误的问题,这种错误如果不提早发现,即使可视化完成了,传递给我们的信息也是错误的。因此前期的检查是必不可少的环节。
另一方面就是自己寻找数据了,在没有任何人给予数据的情况下,只能通过自己寻找。我深知自己寻找数据有多么困难,在我的一些文章中出现的数据可能是我翻遍了所有的网站找出来的,而且有必要还得通过自己去计算,为的就是希望数据能准确。以下是我们寻找数据的一些渠道:

Google搜索引擎,搜索引擎之强大,你几乎能在这里搜索到所有相关的数据。

学术报告、论文等也是重要的数据来源通道之一。国内也有不少大学设有可视化机构,专门从事可视化方面的研究。

综合类数据,各类网站、应用开发接口(API)也是数据获取来源的重要渠道。

  • Freebase,致力于提供关于人物、地点和事件的数据社区;

  • Infochimps,包含付费和免费的数据市场;

  • Numbrary,政府数据编目;

  • AggData,零售业的地区数据;

  • Amazon Public Data Sets,亚马逊科研方面的大型数据。

很多情况下数据并不是等着你来拿的,而是需要一番折腾,例如通过编程直接在网上抓取,这时候就需要一些编程能力了,请注意不要以为编程很难,而直接跳过此处,事实上有些代码是直接可以使用的,只是需要修改一些小东西即可,况且现在开源软件可供使用,真正意义上讲并没有太复杂,本文中并没有涉及到具体的代码,详细方法可阅读《鲜活的数据》第二章的2.1.3小节。

数据的格式

当我们获取到数据我们希望以什么样的格式保存出来呢,不同的数据收集工具获取到的数据格式不尽相同,这在一定程度上取决于你的目的是什么。
关于数据的格式分为一下几类:

  • 带分隔符的文本,这个对于普通人是最熟悉的格式了,你可以在Excel或者Google Documents中直接打开,并且会呈现一个非常规矩的样子,所以这种格式也非常方便与他人分享。

  • JSON格式,其实我也不知道这是啥,但是程序大哥每天在你耳边念叨,你也就知道这是一个数据文件,在计算机上其应用广泛。

  • XML(可扩展性标记语言),XML格式最为常见的应该属于RSS订阅了,RSS本质上就是一个XML格式的文件,当然Google Reader关闭之后很少有人去关注RSS订阅了,只要记住这也是计算机喜欢的语言就行了。

格式转换

在数据处理之后并不一定获取到想要的格式,如果你需要JSON格式的文件,然而现在只有带分隔符的文本给到你,那么就需要一些好的工具来转换格式了,这种情况非常常见。

  • Google Refine,Google总是有一些很棒的东西给你,免费。

  • Mr.Data Converter,《纽约时报》一位图形编辑创造的一款简单、免费的开源工具,可导出JSON、XML等多种格式。

  • Mr.People,同样是《纽约时报》的图形副主编创建的开源软件。

  • Excel、Google Documents,电子表格软件可以对数据手动筛选,非常强大便捷。

  • 编程,如果面对大型数据,前面的软件不是变慢就是直接崩溃,编程将使我们游刃有余。具体方法参见《鲜活的数据》第二章2.2.3小节。

我们在普通情况下是不会涉及到编程的,除非你想作为一名专业的可视化人员,那就必须要掌握。文中介绍的大部分软件其实足以让我们应对日常生活中的各种数据处理的问题,而且方便快捷。


如果觉得我的原创文章写的不错,请我喝咖啡吧,同时欢迎各大机构转载,但请注明作者身份(新浪微博)及文章来源地址,谢谢。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    猜你喜欢

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多