科学论文需要怎样的数据可视化？

kibcat 2022-01-14

展开全文

当我们创作数据可视化作品的时候，我们最容易想到的就是最基本的图像类型：比如柱状图、线段图或者饼图。我们在现实世界当中经常看到这些基本的图像，而一些对于可视化的大规模实证分析也证明了这些图像类型的流行。比如上篇文章中提到的 Borkin et al. (2013) 中发现，柱状图和线段图是各类型媒体当中最常见的可视化的类型（见下图）。但在科学论文当中，一个很明显的趋势就是柱状图的使用比例远远低于新闻和政府网站；而另一方面，科学论文当中则使用了更多的散点图。

这种差别说明科学论文是一种更复杂的文字类型，因而其故事需要更复杂的图像类型加以支撑。柱状图作为一种非常简单的数据可视化类型则往往无法讲述这些更复杂的故事。

Weissgerber等人 (2015) 的一篇论文中总结了柱状图在科学论文当中的问题。这篇文章对生理学顶刊中的703篇论文进行了系统评价（systematic review）。作者尤其关注了这些论文是用哪些可视化类型来呈现连续数据（continuous data）的。

本文作者的核心观点是柱状图设计的本意是呈现离散变量（通常表现为x轴）上的数据描述。而这些数据描述往往通过平均值（mean）加上标准差的方式来呈现（通常表现为y轴；一个标准的柱状图见下图）。但柱状图并不适合用于连续变量（虽然在他们所评价的论文当中，这种做法非常常见）。

这样做的问题有二。第一，作为柱状图本身的局限，柱状图（也包括线段图）的数据描述会掩盖数据背后可能存在的不同分布模式（见下图：右边所有不同的数据分布都可以归纳为最左边的柱状图），这也包括数据当中的离群值（outlier）。

第二，当柱状图的x轴被用于呈现连续数据的时候，这个图像会让读者错误的认为不同的柱子之间是独立的。并且柱状图也无法显示不同柱子之间的变化规律。

为了解决这个问题，作者建议研究者需要在论文当中用更完整的方式来呈现数据：我们需要不仅呈现对于数据在单一维度上的描述，而是用散点图或箱形图这样的方式来呈现数据当中的更多特征，让读者能够更加全面的理解数据中的结论。而这个建议本身也需要科学的社会系统来支持：比如期刊需要制定政策，促进研究者使用更规范的方式来呈现数据；而研究社区也需要让研究者得到更好的数据可视化和数据分析的训练。

虽然上面的讨论集中于科学论文这种体裁，但这个讨论对于其他的数据可视化项目依然是有意义的。虽然数据可视化的最终目的在于用尽可能有效的方式传递数据当中的信息（因而更简单的图像类型也往往是最有效的），但在很多项目当中，其最重要的结论往往并不是 a > b 这样简单的结论，而是存在于更复杂的情境当中。而另一方面，设计者也往往需要呈现数据更多面的样子，让可视化的使用者能够自由的探索数据，来发现数据当中更多的可能性（甚至于是可视化作品中的问题或不足）。这样，数据可视化的设计者几乎永远面临着可视化的简单/有效和复杂/真实之间的取舍。这也是所有面向人的设计项目当中的魅力！

参考资料

Borkin, M. A., Vo, A. A., Bylinskii, Z., Isola, P., Sunkavalli, S., Oliva, A., & Pfister, H. (2013). What makes a visualization memorable?. IEEE transactions on visualization and computer graphics, 19(12), 2306-2315.

Weissgerber, T. L., Milic, N. M., Winham, S. J., & Garovic, V. D. (2015). Beyond bar and line graphs: time for a new data presentation paradigm. PLoS biology, 13(4), e1002128.