视觉化新冠疫情数据的贴士

作者Rowan Philp
Jun 29, 2020 发表在 COVID-19 Reporting
COVID-19 data

约翰霍普金斯新冠肺炎“仪表盘” — 其清晰数据,以及一张神色世界地图上的红色泡泡 — 已经成为了全球许多记者和受众信赖的疫情图景。

它代表着数据视觉化工具作为公众理解这种看不见摸不着的全球性威胁的最有力工具之一的更广泛的出现。

但是,根据世界知名的视觉化教授Alberto Cairo所言,即使是非常优秀的约翰斯霍普金斯图表也有改善空间。

这是因为关于欧洲的泡泡代表按照国家分类的病例,但是代表美国的则是按照县来分类 — 并且他说,一些受众可能会误解关于美国的数据的泡泡。

“这图表很棒,”迈阿密大学新闻学院视觉新闻负责人Cairo说。“但是我们不是应该将数据的层级变得更加一致稳定吗?可能是在全美层面上,然后再细分到县域层面?” 

[Read more: How to deal with COVID-19 and data]

 

在GIJN的关于疫情的调查系列在线研讨会的第20集研讨会中,调查记者Danielle Ivory和卫生数据专家Amanda Makulec以及Cairo一并分享了关于记者们应该如何选择和呈现图表形式以及其背后的数据。他们在来自46个国家的266名记者面前做了分享。

这个论坛的共识是:仔细核查信息,记者们不应该以最合适和可消化的形式呈现数据,还要清楚解释图表与数据,以及其背后的不确定性。

Cairo说视觉化被证明是全球最有效的信息传输形式之一,帮助公众理解这场疫情。

“我想报道新冠疫情危机最困难的部分是跟数据的质量有关,而非视觉化”,Cairo表示,她的新书名为图表是怎样撒谎的 — 对于视觉化信息更睿智。“如果有好新闻,那是视觉化赢了,并且变得更加受欢迎。但是我也看到在疫情数据视觉化过程中有很多错误发生”。

Makulec,一名卫生信息专家和数据视觉化协会操作总监,警示记者们需要理解新冠疫情数据是如何被收集和集纳,之后再去考虑使用图表等等的视觉化信息。

[Read more: Using data journalism to cover the pandemic in Latin America]

 

比如说,她展示了10个步骤 — 从采样到检测点表格 — 人为错误或者数据滞后可能发生,之后病例数会被报告进全国数据库。

Ivory,《纽约时报》调查记者,说关于新冠病例的两两对比数据比较呈现了一个主要的挑战,各州县卫生官员们频繁引用不同的数据库或者使用相异的定义。有一些可能会引用确诊病例或死亡数,而另一些可能引用疑似病例 — 接着又转换为其他方法,或者修正他们的数字。

上个月,Ivory和她的同事揭露,美国超过1/3的新冠死亡都与长期疗养机构有关,包括养老院。

“我们做到了从几乎所有的州收集数据,现在我们也依然在收集 — 这是一个时刻不停的工作,”Ivory说。“差不多70%的数据是手工收集的,打电话或者访问该州网站,然后剩余的是通过自动抓取,希望更多数据可以通过这种方式收集以使之成为一个可持续的过程。但是我们非常注意要对于我们所不知道的事情保持透明度”。

Ivory说直接给卫生部门官员打电话依然是整理筛选蜂拥而至的混乱和互相矛盾的数据的最佳途径。

从这三位讲者的分享中,我们收集了关于如何正确进行数据视觉化的一些贴士。

十大贴士

(1) 解释如何解读图表,然后再解释如何解读数据。在最近的一份关于疫情造成的失业的图表中,《纽约时报》包含进了著名的解读专家,使用通俗的语言,诸如以下:“这张图表上的每一个泡泡都代表一个职位,泡泡越大,就有越多人在做这个工作”。

(2) 设计图表的同时写出文档,这个过程可以帮助你和你的读者建构过程。

(3) 以一种直觉的方式筛分数据 — 比如编年式,或者对照组。

Cairo reorganized COVID-19 data from a confusing bar graph from the Georgia Department of Health (left) into a new chart (right) grouped by county, and arranged chronologically.

 

(4) 如果你或者你的受众对于数据视觉化不熟悉,从简单起步,从诸如地图、柱状图或者线状图开始。考虑诸如Datawrapper, Flourish, 以及iNZight等工具。可遵循专家关于免费工具的在线教程,诸如Cairo的指南

(5) D不要把你自己限于简单的工具和图表中。时不时对数据做一些渐进式改变的视觉化来挑战一下受众。

Some of the many data visualization forms that editors can choose. Image credit: datavizcatalogue.com

 

(6) 不要尝试视觉化太多数据,并且在过多呈现的时候编辑减少。定义关键点,做好这些。

(7) 没有糟糕的视觉化形式,但是有一些对于数据库和受众比另一些更加适合。尤其反直觉的图表可能会需要另一个来做注解。比如说,统计地图 — 将地区放置在一张地图上,取决于其相对的变量的大小 — 应该有另外一张该地的普通地图作为对照。

(8) U使用线性比例尺呈现数字,非线性比例尺,包括对数比例尺,呈现变化率。清晰解释非线性图表,最重要的,读者们往往会发现这些很难理解。

Using generations of gerbils as his data points, Cairo contrasted the linear scale (top) with a logarithmic scale (below) to show why non-linear scales are important in illustrating rates of change. Image: Alberto Cairo

 

(9) 视觉化呈现数据不确定性,比如误差边界或者置信区间。不可以被量化的不确定性 — 比如数据被如何采集的 — 仍可以在书写文档中披露。

(10) 忘掉传统的设计金科玉律“展示,不要说(show-don’t-tell)”。Cairo说视觉记者需要“既要展示也要说”。曾经被很多设计师认为是马后炮,图表的文字部分,被称为“注释层”,现在被认为很重要,既是作为再次强调主要要点之用,也是作为公众理解图标本身之用。