在报道中使用数据的5个步骤

作者Alex Ludka
Jul 10, 2015 发表在 数据新闻

很多记者都拥有大量可供使用的数据。尽管记者可以自由使用数据,但它们总不是容易找到。一旦找到数据,更困难的工作是分析数据。

Jeff South,美国弗吉尼亚联邦大学大众传播学院副教授和本科生院主任,与16名拉美记者进行了交流。这些记者在美国出席ICFJ举办的Digital Path to Entrepreneurship and Innovation for Latin America(新闻创业的数字之路和拉美的创新)项目,该项目旨在提供寻找、理解和可视化数据的方式。

使用由来自OnlineJournalismBlog.comPaul Bradshaw制作的图表,South勾勒出与数字新闻进行有效沟通的几个步骤。

汇编Compile

“当然,第一个步骤是找到数据,”South说。“数据有可能是在网上,有可能在PDF文件中,你需要将数据提取出来。无论数据在哪儿,你需要将它们汇编起来。”

除了查找信息使用的通常手段,例如社交媒体或搜索引擎,South强调了在深网(Deep Web)中查找信息的重要性。

“很多网上的信息并不存在于开放网络中。这些在政府的数据库中,你需要知道这些数据在哪里,”他说。“很多政府数据都是开放的,除非你能找到它们;不然将毫无眉目。”

South和记者分享了可以在报道中使用的数据库,包括美国联邦档案馆(Federal Register)、美国证券交易委员会和联邦选举委员会。

清理(Clean)

“很多时候,数据非常混乱(Dirty),意味它们并不一致,”South说。“如果在数据库中,它很可能是‘South, Jeff’。另外一个可能是‘South, Jeffrey’。可能还有一个是‘South, J.C.’我们需要在使用前清理数据。”

他建议使用免费的在线工具来清理数据,例如TextWrangler 或 OpenRefine

联系性(Context)

一旦汇编并清理好数据,你需要去了解它。这意味着询问这样的问题:“谁在收集数据?何时汇编好?使用了什么方法?”

当你了解数据后,可以准确地在报道中进行使用。

结合(Combine)

记者通常使用多组数据为报道提供信息。South使用了两组数据,一组是一个城市的所有公交司机的名单,另外一组是一个城市中所有被指控酒驾的人的名单。通过整合这两个名单,你会发现公交司机被指控酒后驾车的比例更好,这就是一个好的新闻。

不过,他也提醒说,让数据保持连续性显得非常重要。“相关性并不等于因果联系,”他说。你需要意识到外部因素也有可能影响数据。

除了在Bradshaw图形中提到4个步骤,South提到了第五个步骤:视觉化(visualize)。

“在与公众交流我们的工作时,数据可视化发挥了巨大的作用,”他说。

South建议使用这些工具来帮助在报道中建立可视化数据,例如利用Timeline JS建立时间轴,用Infogram建立信息图表、用Chartbuilder建立表格。

This post originally appeared on the International Center for Journalists' website and is republished on IJNet with permission.

Image CC-licensed on Flickr via Intel Free Press. Secondary image courtesy of Paul Bradshaw of OnlineJournalismBlog.com.