处理数据新闻?核证你的信息源与数据点的方法

作者 Amr Eleraqi
Oct 6, 2021 发表在 数据新闻
Dominoes

2020 年不仅是由疫情大流行主导的;这也是开放数据的一年。

许多与健康相关的组织每天都会发布有关病毒在全球传播的实时更新,传播的数量和规模达到了前所未有的数量。记者面临的挑战,是如何准确分析这些信息,并将他们的发现有效地传达给公众。

记者必须首先了解他们正在处理的数据。虽然在当今马不停蹄的新闻周期中,急于发布往往是常态,但这样做成的不准确弊大于利。在像 COVID-19 这样的危机期间,数据可以帮助提高公众的批判意识;反之,如果处理不当,它会使人们面临更大的风险。

作为记者,我们应该始终以健康的怀疑态度分析数字,并调查我们使用的数据的来源和时效。我们应该确定最初收集和发布这些数字的人,以及背后的资助者。

记者还必须修正不合逻辑或缺失的數值,并清理贴错标签的数字。这些错误可能发生在数据输入过程中,无论是手动还是自动完成。

[延伸阅读:如何避免数据可视化错误]

 

例如,约旦卫生部过去常常手动输入一些未自动上传到政府数据库的 COVID-19 测试结果。约旦前卫生部长 Saad Jaber 告诉当地媒体,随着每日病例数量的增加,部份结果因此在过程中丢失,并且出现了与姓名和样本相关的错误。

也请谨记,即使使用 Microsoft Excel 等可靠软件,也可能会出现人为错误。以去年发生在英国的这起事件为例:16,000 条 COVID-19 患者的记录被意外从官方数据库中删除,导致不准确数据的传播,阻碍了接触者追踪等抗击病毒的努力。

为避免发布不准确的数据,请依赖可靠的来源并验证数字。以下就是几个入手方法:

透明度

寻找在汇编和记录数据方面信息透明的资源;这包括他们在过程中使用的技术和演算法。 数据提供者越透明,准确性的潜力就越大。

为此,请确保你了解所引用的来源是如何收集数据的。 这将确保你能先以最好的方式分析和验证数字,才把它们引用到报导中。

[延伸阅读健康报告:如何查找数据及采访内容求证]

方法

不要在没有附加相关的元数据文件的情况下发布数据集——元数据有助解释数据是如何收集的,它还可以包括有关样本大小、误差幅度和缺失值的信息,还有术语和缩写词表。 没有这些细节,就彷彿发现了一个宝箱却没有钥匙去打开它一样。

例如在意大利,记者发现了政府向公众提供的 COVID-19 相关数字存在缺陷,由此对官方数据的可信度起疑。 这可以归咎于多重因素,其中包括政府在 2020 年多次改变了检测政策,以及追踪病毒病例的方法因地区而异。 这都导致了整体数据的不一致和缺漏。 如果有可用的元数据文件,这些错误可以更容易被识别。

语境

掌握语境是分析数据的关键。 例如,你须考虑如何呈现有关总感染数字和传染率的信息。 当政府机构公开有关 COVID-19 感染人数的区域数据时,大城市料将显示最高值。 然而,这并不一定意味着它的感染率最高——这可能仅是因为它是人口最多、最密集的地区。

比较不同地域与人口的相应数字的更合适方法,是计算每 100 人的感染率;这将更准确地呈现病毒的传播。

了解数据

在开始着手处理数据库前,务必要确定你了解它在呈现甚麽。 为此,请问自己以下问题:

  • 这数据说明了什麽?
  • 我是否理解数据中涵盖的所有术语和定义?
  • 这数据有没有少了甚麽能提供语境相关信息的东西?
  • 数据用甚麽计量单位?
  • 你能用不同的来源交叉引用数据,以核证这些数值吗?

验证数据需要调查和分析,幸而,这不是数据分析专家才能着手处理的专利。新闻工作操守、技能和直觉都是协助核实数字的有效方法;人手验证甚至可以比自动验证演算法更有效。虽然技术不一定能每次助你确定数据的可信性,但它可以为记者提供有用的工具和指导。

请随时提出问题、保持怀疑态度,并尽可能地多加查看和交叉引用你的数字。下图就详述了我在处理某数据库中的数字时所遵循的步骤; 它或能助你建立自己的核查验证策略。

Data verification workflow diagram

图片来源:Mick Haupt on Unsplash.