Icfj 的一个项目

为调查报导搜索深入数据的实用建议

作者 Rowan Philp
Jan 1, 2022 发表在 数据新闻
Two people reviewing data.

从全球数据集到尖端的开源工具,大部份监管机构用于调查的技术已成熟多时。第 12 届全球调查报导大会 (#GIJC21) 就特意邀请来自世界各地的记者一同深入了解并活用这些技术。

在 #GIJC21 的 “闪电回合” 的一个讨论环节中,一个由记者和编辑组成的小姐仅花了五分钟就能概述有关如何收集难找的事实的可行方案。

以下是他们的一些建议:

人面识别

Findclone 等人面识别评分工具,能追踪和识别正处于权力位置的潜在极端分子,例如于执法机构内部的新纳粹支持者。专长调查极右翼运动的独立记者 Sébastien Bourdon 表示,Findclone 能在俄罗斯的 VK (VKontakte) 等社交媒体平台上显示五组配对预览,并为可能性作为介于 0 和 1 之间的评分;更重要的是,它甚至可以查找在来自已删除的帐户的图像照片。非牟利调查组织 Bellingcat 指出,像 Findclone 一类的系统“在 VK 上在搜寻个别人士的网络活动方面的能力虽然有限,却功能强大”。不过,他也提醒记者要审慎考虑与人面识别软件有关的重大伦理问题,并谨记这些系统能被有心之人恶意滥用。

[延伸阅读:处理数据新闻?核证你的信息源与数据点的方法]

群众外包

记者也能试用 CrowdNewsroom 等众包数据和搜证工具。CrowdNewsroom 的瑞士分站总监 Marc Engelhardt 表示,这工具能让记者发起众包计划,以流畅易用拖放式编辑工具来构建数据新闻报导,然后再就收集到的信息进行分析和查证。“公众能通过这平台,以安全的方式分享他们的数据或个人故事。

 

CrowdNewsroom

 

Engelhardt 说,独立平台 Correctiv 已用 CrowdNewsroom 进行了几项调查报导,包括追踪一个极右翼欧洲政党的海报宣传工程背后的资金;单是这项目就吸引了 3,500 人提交数据。

由于这种方法依赖于动员公众,Engelhardt 表示,成功的项目需要与非政府机构和媒体协作展开,并在社区的活动中进行线下推广。

数据库

记者也能考虑具有数据功能、操作灵活的 Aleph,这是由组织犯罪和贪腐举报计划 (Organized Crime & Corruption Reporting Project) 开发的工具。 OCCRP 的数据编辑 Jan Strozyk 推荐把 Aleph 视为互动全球档案库,以此进行调查研究。就像冰山一样,由数据驱动的调查项目所涉及的大部份工作,包括提取信息、再进行清理、解析和转换,都是在幕后发生的,读者往往看不到这些投入。Strozyk 说,这档案库中有几个功能可助记者处理这种不怎府吸引人的数据工作。

Aleph 现在包含了多达 309 个公共数据集、200 个数据抓取工具,以及来自超过 1.5 亿个机构的数据。Strozyk 补充,这数据平台还能让记者安全地与协作者分享他们的调查计划、上传几乎任何类型的文件、搜索各种文本,并将数据转换为可点按显示的图像,来呈现显示各种发展与联繫。

记者也能查看由非牟利环境调查组织 Oxpeckers 所开发的 #MineAlerts 工具,来绘製非洲南部的採矿项目申请和法规履行状况,同时从中了解其他地方的煤炭开採行业如何运作。 Oxpeckers 的记者兼数据经理 Andiswa Matikinca 表示,这平台融合了线上数据库与地理新闻工具,包含了各种与许可证申请和矿山营运相关的文件,以及这些项目的用水情况等关键问题。

 

Oxpeckers

 

同样地,离岸洩密数据库也能让记者搜索针对跨国经营的企业的调查内容。国际调查记者联盟 (ICIJ) 的数据记者 Delphine Reuter 表示,这个免费的开源数据库已包含了 800,000 间公司的数据,且随着潘多拉文件的新增数据,当中的数据量将会进一步增加。路透社为此提供了一些使用技巧建议:

  • 在搜索中尝试不同的拼写方式 — 例如 “limited” 和 “ltd”,或 “corporation” 和“corp” 等,并在搜索特定名称加上引号。
  • 记下数据库 “Power Players” 部分所列出的数据来源和日期——其中包括巴拿马文件和天堂文件等洩密内容——并谨记这些数据是截至当时的调查的摘要。路透社表示,记者应该查阅更新的公司註册文件,以获取更多最新的数据。
  • 虽然该数据库容许用户按名称、地址或国家/地区进行搜索,但路透社指出,一般而言,在 “管辖权” (jurisdiction) 类别下搜索信託和离岸公司以获得准确结果也很重要。

[延伸阅读:如何查找和使用数据来报道冲突事件]

针对个别国家的资源

有些新的纪录数据库则针对特定国家(例如乌克兰和哈萨克)而设。乌克兰网站 Bihus.info 的信息技术专家 Dmitry Chaplinsky 表示,搜寻来自乌克兰和哈萨克的公共註册处、资产披露文件、公营採购数据和其他公开记录的记者,应该查阅两个新面世、定期更新的开源数据库:Ring 是乌克兰 20 多个数据库的文档搜索引擎,拥有 2900 万条公共记录;Open Base 则是哈萨克的一个形式相似的数据存储库,拥有大约十几个数据源。Chaplinsky 说,Ring 支援乌克兰语、英语和俄语的搜索。

“我最喜欢的工具是 R 和 R Studio。” — 半岛电视台数据编辑 Mohammad Haddad

每天工作必备的报导工具箱

虽然新工具令人格外振奋,但从调查报导编辑部素来依赖的工具着手展开学习,同样有重大价值。Al Jazeera Media Network 的数据编辑 Mohammed Haddad 分享了他每天使用的头五大工具

  • Mapbox — 以及 Mapbox 的 Scrollytelling 功能。Haddad 说:“如果你想用地理来叙述你的故事,这就是你的工具之选。这是我们迄今最喜欢的绘图工具;你可藉此带领你的读者环游世界——如我们带领读者沿着尼罗河上游,穿越印度和中国之间的争议边界地区。”
  • Nivo:“这是一款出色的数据视觉化工具,只需利用极少代码,即可设置非常精细详尽的数据可视化图像,” Haddad 解释。“半岛电视台使用 Nivo 分析了自 1946 年以来,各国在联合国上就不同议题的投票纪录。”
  • AMP Stories:“这是一个易于消化、为移动装置而设的网络故事叙述平台。它非常适合以人物为主导的功能,也适用于手机——你的大部分流量可能都来自手机的用户。我们将 AMP Stories 用于我们的 100 张罗兴亚面孔专题,以及我们涵盖在美国被杀黑人、巴勒斯坦和缅甸的系列报导。”
  • Chartbeat:“如要了解你的故事如何与观众产生共鸣,请使用 Chartbeat 的实时分析。” Haddad 如此建议:“对我来说,它最有用的功能是社交媒体绩效指标,能助你查看你的故事在社交媒体上在哪裡被分享。”
  • R 编程和 R Studio。Haddad 说:“我最喜欢的工具是 R 和 R Studio。很多工具来来去去,因此最好的工具,是你能用编程语言构建的工具。我们整个团队都在使用 R,从收集数据到编辑。若问你能用 R 做什麽? ——几乎是所有东西皆可。”

 

Data visualization tool

 

会上不同专家所分享的工具的一个共同及显着特点,是它们均能使乍看海量的信息变得更易于管理,并能令以不同语言、文本、文档类型和图像存储的数据都可供任何记者在线搜索。


原文发表于全球调查报导网络,现获授权转载。

图片来源:UX Indonesia on Unsplash