如何完整计划一个数据新闻项目

作者Antoine Laurent
May 30, 2014 发表在 数据新闻

这篇文章总结了数据新闻学院的第一个培训内容。该学院由欧洲新闻中心(European Journalism Centre)、开放知识基金会(Open Knowledge Foundation)和国际新闻节(International Journalism Festival)举办。这个课程由奈特新闻主管Steve Doig主持,他是计算机辅助报道的专家——使用极端及和社交技术来帮助记者更好的完成工作。

点击这里下载Steve Doig的完整演讲。

Steve Doig相信数据新闻可以让记者去超越无根据的传闻,让报道基于事实和证据。通过使用数据进行报道,记者可以寻找最好的亮点,这是一篇报道中最重要的闪光点。

那么,记者如何才能找到报道线索?首先,尝试关注现有话题,例如运动、选举、灾难、犯罪调查、现金流等。记者报道的所有话题基本都有可供分析的数据。其它获得数据新闻灵感的地方包括:

  • 看其他记者在做什么。如果其它城市在发生什么,那么你所在的城市也有机会发生。
  • 查看DataDrivenJournalism.net上的项目
  • 查看IRE的“Extrea Extra”内容
  • 关注《卫报》的数据博客
  • 阅读由政府和学者收集的数据文件。关注脚注和参考书目,这些可能会有一些有趣的数据。

如何将一个想法变成报道

反推你的想法

考虑你想要进行的称述

首先需要一个假设“犯罪在我区日趋严重”。对于这个假设,你可能需要做出这样的称述:犯罪率增加了XXX,再某些城市的每千人犯罪率在我们地区是最高的。

考虑影响这些称述的变量

从电子表格的信息角度进行考虑(列是变量,行是单个数据点)。因此存在两种不同的变量:

分类:例如性别、犯罪类型、邮政编码。带有标签的变量。 数值变量:例如罪名、犯罪数量、事故数量、逮捕数。

这些变量放在一起会出现:犯罪类型、犯罪所在地的人口、犯罪日期、时间、地点、受害者数量、是否做出逮捕。

考虑谁在收集数据

一旦确定变量,考虑谁在收集他们。组织和机构,例如政府、企业等,都在收集大量的数据信息,因此我们大多数时间不需要自己收集数据。

获取数据

接着,我们将面临如何获得数据的问题。在美国,有比较强的公共记录法。在欧洲,很多国家都有信息自由法律,或有从公共机构获取数据的正式渠道。

不要被不同格式的数据吓倒。了解自己需要通过怎样的方式处理数据,例如Excel。你不需要让所有的数据都是.xls格式,但是你可以适用软件来自由转换数据。寻找一名数据天才来帮助你。你可以通过这种方式来获得数据专家的帮助,例如:

你需要避免pdf格式的文件;它不能很好的导出数据。如果你只有pdf格式的文件,有很多可以帮助导出数据的工具,例如Tabula。

清理数据

数据有时很混乱。一个典型的例子是由志愿者输入的选举财务信息,很多城市的名字总是都被拼错 。在这种情况下,你需要去找出所有被拼错的城市名字,并进行更正,这样才能得到正确的数据。那些收集数据的人往往很官僚,数据是否清晰整洁对他们没有太多的意义。使用数据进行分析的人要求更高的精确度,因此必须清理数据。一些数据清理工具包括:

一旦完成数据清理,你如何使用?

寻找存在的各种规律!包括高点、低点、最大值、最小值、平均值等。在头脑中形成数据形状,寻找离群值,以及任何让数据看起来不可思议和突出的东西。记住,你可以通过很多简单的功能,例如筛选,来找到新闻。一些可以帮助的工具包括:

  • 使用电子表格的简单功能,例如排序、过滤、功能和透视表;
  • 另外一个工具是你的大脑:数学和统计知识。一个重要的资源是:http://t.co/CaZg5qS0jM

最后需要记住的是,数据新闻最好由团队的努力实现。其中需要很多角色,包括:记者、编辑、图形设计师、摄影师、网页设计师、页面设计师、app开发者等。

Image CC-licensed on Flickr via Intel Free Press.