分享

数据可视化 | 给论文创建“图形”的10条法则

 叨叨道 2021-12-26

本文转载自公众号刘西川阅读写作课

鲁吉尔、德罗特姆和伯恩(Rougier, Droettboom, Bourne 2014)在期刊《PLoS Comput Biol 》发表的“创建更好的图形的十条简单规则”(Ten Simple Rules for Better Figures)不仅给出了一套有用的规则和一些图形示范,而且介绍了一些典型的开源制图工具(Matplotlib、R、Inkscape、TikZ和PGF、GIMP、ImageMagick、D3.js、Cytoscape、Circos)。这里仅仅对原文要点进行文字性介绍,需要了解细节尤其是图形示范的读者请阅读原文。

Rougier NP, Droettboom M, Bourne PE 2014) Ten Simple Rules for Better Figures. PLoS Comput Biol 10(9): e1003833. https:///10.1371/journal.pcbi.1003833

科学可视化,即以图形方式显示科学数据的过程,远不是直接或自动的。这有两方面原因。一方面,有很多不同的方法来表示相同的数据:散点图、线性图、条形图和饼图,仅举几例而已。另一方面,同样的数据,使用同样类型的图,可能会被视为非常不一样,因为这取决于谁在看图形。由于第二个原因,科学可视化其实是人与数据之间的图形界面。虽然无法面面俱到地介绍这两个方面,但以下提供的一套基本的规则可以用来帮助您改进图形设计,并避免一些潜在的陷阱。

Part1规则1:了解你的受众(Know Your Audience)

设计的图形应考虑到不同受众的需求。有四种类型的受众需要关注:合作者期刊学术公众

如果您正在为自己和您的直接合作者制作一个图形,您可以跳过设计过程中的许多步骤,因为每个人都知道该图形是关于什么的。

然而,如果你打算在科学杂志上发表一个图形,你应该确保你的图形是正确的,并将所有相关信息传达给更广泛的读者。

另外,给学生看的图需要特别注意,因为这种情况的目标是解释一个概念,为此您可能需要添加额外的信息,以确保学生完全理解该概念。

最后,公众可能是最难接受的受众,因为你需要设计一个简单的,可能是近似的,只揭示你研究中最突出部分的图形。

Part2规则2:识别你的信息(Identify Your Message)

图形用于表达一个想法或介绍这样一些事实或结果——它们的内容太长(或几乎不可能)以致无法用文字来解释,无论是针对一篇文章还是在有限时间的口头陈述中。在这种情况下,重要的是要清楚地确定图形的角色,即什么是潜在的信息,以及图形如何才能最好地表达这一信息?一旦明确识别,此消息将成为图形设计的有力指南。只有在确定了信息之后,你才值得花时间来塑造自己的图形,就像你在确定了文章的要点之后才需要花时间来构思你的单词和句子一样。如果你的图形第一眼就能传达出一个引人注目的信息,那么你的文章吸引学术圈更多注意力的可能性就会增加。

Part3规则3:使图形适应支持图形的介质(Adapt the Figure to the Support Medium)

图形可以显示在各种媒体上:海报、计算机显示器、投影屏幕(如口头演示)或一张简单的纸(如印刷品)。这些媒体中的每一种都要求图形拥有不同的物理尺寸,每一种媒体也暗示了观看和与人物互动的不同方式。

在口头演示期间,图形将在有限的时间内显示,因此,观众必须在听你解释的同时快速理解所显示的内容及其代表的内容。在这种情况下,图形必须保持简单,信息必须在视觉上突出,以吸引注意力。同样重要的是要记住,在口头陈述过程中,图形将被视频投影,并且将从远处看到,因此图形元素必须变得更厚(线条)或更大(点、文本),颜色应具有强烈的对比度,并且应避免竖排文本等。

对于期刊文章,情况完全不同,因为读者可以根据需要查看图形。这意味着可以添加很多细节,以及题注中的补充说明。

如果我们考虑到现在越来越多的人在电脑屏幕上阅读文章这一事实,他们也有可能缩放和拖动图形。

理想情况下,每种类型的支持媒体都需要不同的图形,你应该放弃从文章中提取图形以放在口头陈述中的做法。

Part4规则4:题注必不可少( Captions Are Not Optional)

无论是描述一个实验装置,引入一个新模型,还是展示新的结果,你都无法解释图形本身的一切——图形应该附有题注。题注解释了如何读取图形,并为无法以图形表示的内容提供了额外的精度。这可以被认为是你在口头陈述或海报前所作的解释,但不同的是,你必须事先考虑人们会提出的问题。例如,如果您有条形图,不要期望读者仅通过查看和测量图形上的相对高度来猜测不同条形图的值。如果数值很重要,则必须在文章的其他地方提供,或在图形上清楚地书写。同样,如果图中有兴趣点(关键域、特定点等),请确保其视觉清晰,但不要犹豫在题注中再次指出。

Part5规则5:不要相信默设置(Do Not Trust the Defaults)

任何打印库或软件都附带一组默认设置。当最终用户没有指定任何内容时,这些默认设置用于指定大小、字体、颜色、样式、记号、标记等。实际上,你可以重新指定任何设置,由于这些默认设置提供的选择,您通常可以识别每个软件包(Matlab、Excel、Keynote等)或库(LaTeX、matplotlib、gnuplot等)的特定样式。由于这些设置将用于几乎任何类型的绘图,因此不会针对特定类型的绘图进行微调。换句话说,它们对任何情节都足够好,但对任何情节都不是最好的。所有绘图都需要至少对不同的设置进行一些手动调整,以更好地表达信息,无论是为了使精确的绘图对广大受众更为突出,还是为了根据数据的性质选择最佳的彩色地图。

Part6规则6:有效使用颜色(Use Color Effectively)

颜色是人类视觉的一个重要维度,因此在科学图形的设计中也同样重要。然而,如果使用不当,颜色可能是你最大的盟友,也可能是你最大的敌人。如果你决定使用颜色,你应该考虑使用哪些颜色以及在哪里使用它们。例如,要高亮显示图形的某个元素,可以使用该元素的颜色,同时将其他元素保持为灰色或黑色。这提供了增强效果。然而,如果你没有这样的需要,你需要问自己,“有什么理由这个情节是蓝色而不是黑色的吗?”如果你不知道答案,就把它隐藏起来。颜色贴图也是如此。除非有明确的理由,否则不要使用默认的颜色贴图(如jet或rainbow)。传统上,彩色图分为三大类:

  • 顺序类:唯一颜色的一种变化,用于从低到高的定量数据。

  • 发散类:从一种颜色到另一种颜色的变化,用于突出显示与中值的偏差。

  • 定性类:颜色的快速变化,主要用于离散或分类数据。

使用与数据最相关的颜色映射。最后,避免使用太多相似的颜色,因为色盲可能会使辨别某些颜色差异变得困难。

Part7规则7:不要误导读者(Do Not Mislead the Reader)

科学图形与其他图形艺术品的区别在于,数据的存在需要尽可能客观地被显示出来。根据定义,科学图形与数据(无论是实验装置、模型还是某些结果)相关联。如果你放松这种关联,你可能会无意中投射出与预期不同的信息。

然而,客观地表示结果并不总是简单的。例如,您正在使用的库或软件所做的许多隐含选择在大多数情况下都是准确的,在某些情况下也可能误导受众。如果您的软件自动重新缩放值,您可能会获得数据的客观表示(因为标题、标签和记号清楚地指示实际显示的内容),但这在视觉上会产生误导;您无意中误导了读者,使他们在视觉上相信数据中不存在的东西。

您还有可能做出在设计上本身就是错误的选择,例如使用饼图或三维图来比较数量。已知这两种图会导致对数量的错误理解,正确使用它们需要一些专业知识。

根据经验,确保始终使用能够传达信息的最简单类型的绘图,并确保使用标签、记号、标题和相关的完整值范围。

Part8规则8:避免“垃圾”信息(Avoid “Chartjunk”)

图表应该代表看到和理解有意义内容所需的所有数据,因此只能提供有用信息,任何不告诉受众客观事物的装饰都必须被禁止。使用过多的颜色、过多的标签、免费的彩色背景、无用的网格线等则属于垃圾信息。

垃圾信息指的是在图形中发现的所有不必要或令人困惑的视觉元素,这些元素在最好的情况下不会改善信息,在最坏的情况下会增加混乱。

Part9规则9:信息胜过美丽(Message Trumps Beauty)

对于科学研究,图形中的信息和可读性是最重要的方面,而美丽只是一个可有可无的选项。

如果你的研究属于标准方法给出的研究,此时需要按范式来在图形中展示信息。每个科学领域都制定了自己的一套最佳图形设计的范式。了解这些标准很重要,因为它们有助于在模型、研究或实验之间进行更直接的比较,这样可以帮助您发现结果中的明显错误。

如果没有标准的方法来描述你的研究,则可能需要设计一个别人没有的全新的图形范式。在这种情况下,看看哪篇文章的图形介绍的结果与的结果类似,尝试根据自己的需要调整该图形(请注意,我们没有说复制;请注意图像版权)。

网络上的图形必须谨慎模仿,因为在那里,数据可视化、信息图形、设计和艺术之间的边界越来越窄。有无数的在线图形,其中审美是第一标准,内容却排在第二位。这些图形中有很多极其美丽,但大多数都不符合科学框架。

Part10规则10:使用正确的工具(Get the Right Tool)

有很多工具可以让你在创建图形时的生活更轻松,了解其中的一些工具可以节省你很多时间。根据您试图创建的视觉类型,通常会有一个专用工具来完成您试图实现的目标。

需要注意的是,用于进行可视化的软件或库可能与用于进行研究和/或分析数据的软件或库不同。可以导出后者给出的数据,以便在其他可视化工具中使用。

无论是绘制图表、设计实验模式,还是绘制一些数据,都有开源工具可供您使用。他们只是在等待被发现和使用。下面是一小部分开源工具。

Matplotlib[1]是一个python绘图库,主要用于二维绘图,但具有一些三维支持,它以各种硬拷贝格式和跨平台的交互环境生成出版物质量的图形。它附带了大量的例子,几乎涵盖了所有科学领域.

R是一种用于统计计算和图形的语言和环境。R提供了多种统计(线性和非线性建模、经典统计测试、时间序列分析、分类、聚类等)和图形技术,并且具有高度的可扩展性。

Inkscape是一个专业的矢量图形编辑器。它允许您设计复杂的图形,并可用于改进脚本生成的图形,或读取PDF文件,以便提取图形并以任何方式进行变换。

TikZ和PGF是用于以编程方式创建图形的TeX包。TikZ构建在PGF之上,允许您以相当直观和简单的方式创建复杂的图形,如TikZ gallery所示[2].

GIMP是GNU图像处理程序。它是一个用于照片修饰、图像合成和图像创作等任务的应用程序。如果您需要快速修饰图像或添加一些图例或标签,GIMP是一个完美的工具。

ImageMagick是一个软件套件,用于从命令行创建、编辑、合成或转换位图图像。它可以用来快速地将图像转换成另一种格式,以及巨大的脚本库[3]弗雷德·韦恩豪斯(Fred Weinhaus)的作品几乎可以提供你想要达到的任何效果。

D3.js(或数据驱动文档的D3)是一个JavaScript库,它提供了一种简单的方法来创建和控制在web浏览器中运行的基于数据的交互式图形表单[4]

Cytoscape是一个用于可视化复杂网络并将其与任何类型的属性数据集成的软件平台。如果您的数据或结果非常复杂,cytoscape可能会帮助您减轻这种复杂性。

Circos最初设计用于可视化基因组数据,但可以从任何领域的数据中创建图形。如果您有描述一个或多个比例的关系或多层注释的数据,Circos非常有用。

参考资料

[1]

Matplotlib: http:///gallery.html

[2]

如TikZ gallery所示: http://www./tikz/examples/all/

[3]

巨大的脚本库: http://www./imagemagick/index.php

[4]

交互式图形表单,如: http://github.com/mbostock/d3/wiki/Gallery

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多