序言 有人说,数据可视化不就是把数据展示成图嘛,看不出来研究的价值在哪。我原来也天真的以为,数据可视化就是把数据从冰冷的数字转换成图形,顶多就是表现形式丰富一些,看起来更酷炫,逼格满满。其实不然,优秀的数据可视化案例,能够带给人们不仅仅是视觉上的冲击,还能够揭示蕴含在数据中的规律和道理。 一、什么是数据可视化 数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。 数据可视化的目标是洞悉蕴含在数据中的现象和规律,这里面有多重含义:发现、决策、解释、分析、探索和学习。 二、数据可视化分类 数据可视化包含三个分支,科学可视化、信息可视化和可视分析。 科学可视化面向的是科学和工程领域数据,比如空间坐标和几何信息的三维空间测量数据、计算机仿真数据、医学影像数据,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律。 信息可视化的处理对象是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是针对大尺度高维复杂数据如何减少视觉混淆对信息的干扰。 可视分析学被定义为由可视交互界面为基础的分析推理科学,将图形学、数据挖掘、人机交互等技术融合在一起,形成人脑智能和机器智能优势互补和相互提升。 三、麦肯锡的20张数据可视化图表 数据可视化是科学、艺术和设计的结合,当枯燥隐晦的数据被数据科学家们以优雅、简明、直观的视觉方式呈现时,带给人们的不仅仅是一种全新的观察世界的方法,而且往往具备艺术作品般的强大冲击力和说服力。本文介绍的20个数据可视化图表,将新冠病毒的发展与就业、数字化转型、企业管理、、甚至市政数据以可视化的方式展示出来,让人耳目一新,趋势尽览。 2020年初,COVID-19病例的迅速蔓延及其对人类生活和生计的毁灭性影响将永远存在。传播和死亡率是较早出现的问题。很快也很明显,该病毒对整个人群产生了不平等的影响,我们看到,冠状病毒也基于社会经济地位进行区分。患有严重住房问题的人,或失业,监禁或贫穷的人,比普通人群更容易感染该病毒。
脆弱的族裔和 社会经济群体更有可能患有潜在的健康状况,这可能使COVID-19病例更加严重甚至更致命。因此,很明显,解决这些疾病(包括肥胖症,糖尿病和高血压)可以保护数百万人免于未来的大流行。 迫切需要控制慢性病。世界人口正在老龄化,我们关注的许多状况都与年龄和生活方式有关。当前的趋势表明,这些疾病的发病率将在未来20年内上升,而传染病可能会下降。 对人与人接触对健康的威胁的担忧使世界上几乎每个国家都陷入某种形式的封锁。在世界卫生组织宣布大流行的一个月之内,现在有191个国家的学生(16亿儿童)正在家里学习。 广泛的学校停课使各地工人特别是上班的母亲的生活变得复杂,这些母亲首当其冲地承担着育儿责任。根据我们最新的《职场女性》研究,这些挑战以及职场中持续出现的不平等现象使多达200万女性考虑离开职场。我们还发现,如果在危机期间不采取任何措施解决性别均等问题,到2030年可能会使世界损失1万亿美元。相比之下,现在就此问题采取行动可能会使同期的全球GDP增加13万亿美元,与“不采取任何行动”方案相比。 即使对于那些没有育儿问题的人,如果需要任何形式的共享出行,上下班也成为一个问题。在我们5月份的消费者调查中,只有5%至8%的受访者表示,这样乘车上下班很安全。 封锁也对消费者的行为产生了近乎直接的影响。在欧洲,回应我们4月中旬消费者信心调查的购物者说,他们希望减少在杂货和在线娱乐方面的支出。 亚洲国家是第一个进入锁定状态的国家。现在,普通的人类接触已经威胁到生命,生计和整个经济。数字化成为完成许多事情的方式-从拜访医生,购物到社交。亚洲各国政府和企业对六种数字和移动技术的依赖将成为世界的典范。 全世界的政府很早就意识到与健康有关的封锁将导致广泛的经济损失。随着企业的关闭以及(在某些国家)失业率创纪录,他们迅速采取行动以支撑经济并支持其人民。在全球范围内,政府在短短两个月内就拨出了惊人的10万亿美元用于经济刺激。这是他们在整个2008-09年金融危机中花费的三倍。 这种大流行的教训之一是,世界需要为下一个大流行做好更好的准备。在7月份,当对流感大流行造成的经济损失估计在9万亿至33万亿美元之间时,我们估计,相对较小的预防措施投资可能会大大限制未来的影响。 尽管这种流行病造成的经济损失已经而且仍将是巨大的,但与造成的生命损失以及人们的幸福感和心理健康所造成的损失相比,却相形见绌 。当我们试图估算与欧洲人幸福感相关的经济损失时,我们发现欧洲人4月份的生活满意度下降了0.38点(以10点为单位),相当于欧洲大陆的3.5倍。人均收入减少。 转向私营部门,大流行的影响在各个行业之间是不均衡的。其中某些是不可避免的,因为不同类型的危机对行业的影响不同。我们分析了23个行业价值链,以评估它们所遭受的大流行,网络攻击,地球物理事件,热应力,洪水和贸易争端。 不过,对公司而言,好消息是,他们的命运并不受所在行业的支配。我们对上次金融危机期间和之后的公司绩效的分析表明,那些尽早采取措施提高弹性的人仍然表现出色他们的同龄人-并扩大他们的领导力-至少十年。 问题在于,至少有一些高管没有立即获得备忘录。那些在四月份通过危机对创新进行调查的人告诉我们,他们已经优先考虑效率,并且保持核心业务稳定而不是创新。他们希望在危机过去后重新安排创新的优先级。 但是,对组织而言,一线希望是向数字化的快速转变。公司将许多活动数字化的速度比以前想象的快20到25倍。当涉及到远程工作时,公司的迁移速度比预期的快43倍。 另一个积极的发展是向敏捷领导力的转变,许多人期望这种领导力将永久化。例如,我们接受调查的消费者和零售业高管越来越多地表示,与那些行使权威或咨询型领导能力的人相比,他们更喜欢赋予他人权力并促进开放环境的领导者。 全年中,许多人质疑世界是否可以控制大流行,同时还要应对其他全球挑战,尤其是气候变化。从COVID-19危机中复苏的低碳议程能否创造就业机会并帮助经济?根据一项研究,是的。报告认为,政府在可再生能源方面的支出每投资一千万美元,就会比在化石燃料上创造50个就业机会。 随着世界进入北半球的冬季,人们开始担心对COVID-19测试的需求可能会增加两倍。在某种程度上,这是因为随着天气转冷并且人们在室内度过了更多的时间,预计该病毒会再次流行。但这也是因为流感季节临近。类似于流感样症状(类似于COVID-19症状),冬季平均比春季高三倍。 但是,我们以乐观的态度结束了这一年。两种有前途的疫苗在临床试验中显示约95%的有效性。有多少人需要接种疫苗才能保护大部分人口? 四、数据可视化的步骤 数据可视化的实施步骤主要有四项:需求分析,建设数据仓库/数据集市模型,数据抽取、清洗、转换、加载(ETL),建立可视化分析场景。 1) 需求分析 需求分析是数据可视化项目开展的前提,要描述项目背景与目的、业务目标、业务范围、业务需求和功能需求等内容,明确对可视化的期望和需求。包括需要分析的主题、各主题可能查看的角度、需要发现的规律、需求等内容。 2) 建设数据仓库/数据集市的模型 数据仓库/数据集市的模型是在需求分析的基础上建立起来的。数据仓库/数据集市建模除了数据库的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。维度建模的关键在于明确下面四个问题:
3) 数据抽取、清洗、转换、加载(ETL) 数据抽取是指将数据仓库/集市需要的数据从各个源系统中抽离出来,因为每个系统的数据质量不同,所以要对每个数据源建立不同的抽取程序,每个数据抽取流程都需要使用接口将源数据传送到清洗和转换阶段。 数据清洗的目的是保证抽取的原数据的质量符合数据仓库/集市的要求并保持数据的一致性。 数据转换是整个ETL过程的核心部分,主要是对原数据进行计算和放大。数据加载是按照数据仓库/集市模型中各个实体之间的关系将数据加载到目标表中。 4) 建立可视化场景 建立可视化场景是对数据仓库/集市中的数据进行分析处理的成果,能够按照不同的主题和方式探查需求的核心数据,从而作出趋势性分析以便更精准的预测和判断。 五、综述 数据可视化的开发和大部分项目开发一样,也是根据需求来根据数据维度或属性进行筛选,根据目的和用户群选用表现方式。同一份数据可以可视化成多种看起来截然不同的形式。 ■有的可视化目标是为了观测、跟踪数据,所以就要强调实时性、变化、运算能力,可能就会生成一份不停变化、可读性强的图表。 ■有的为了分析数据,所以要强调数据的呈现度、可能会生成一份可以检索、交互式的图表 ■有的为了发现数据之间的潜在关联,可能会生成分布式的多维的图表。 ■有的为了帮助普通用户或商业用户快速理解数据的含义或变化,会利用漂亮的颜色、动画创建生动、明了,具有吸引力的图表。 ■还有的被用于教育、宣传或政治,被制作成海报、课件,出现在街头、广告手持、杂志和集会上。这类可视化拥有强大的说服力,使用强烈的对比、置换等手段,可以创造出极具冲击力自指人心的图像。 数据可视化的应用价值,其多样性和表现力吸引了许多从业者,而其创作过程中的每一环节都有强大的专业背景支持。无论是动态还是静态的可视化图形,都为我们搭建了新的桥梁,让我们能洞察世界的究竟、发现形形色色的关系,感受每时每刻围绕在我们身边的信息变化,还能让我们理解其他形式下不易发掘的事物。 |
|