语言

天堂文件:调查大规模爆料的方法与工具

主题: 

天堂文件:调查大规模爆料的方法与工具

正当全球范围内关于公司、政客、名流们在避税天堂隐藏财富的秘密不断大白于天下的时候,正在忙一项名为“天堂文件”调查的记者们证实了通力合作的重要以及电脑科技对于数据研究和分析的价值。

对于这项特别的调查而言,国际调查记者协会 (ICIJ) 为来自67个国家的383名记者开通了三个工作平台:一个用来内部沟通(Global I-Hub),一个用来做文档研究 (Global Knowledge Center) ,第三个用来建立数据联系 (Linkurius)。“这是做到大规模协作的唯一可行之道,”ICIJ的执行总监Marina Walker在今年3月我们在慕尼黑见面讨论这个七个月后大白于天下的调查的关键细节时告诉我们。

正如同巴拿马文件的调查那样,新的这1340万份从离岸律师事务所Appleby和Asiaciti Trust的文件来自于《南德意志报》的两名记者:Bastian ObermayerFrederik Obermaier。他们与ICIJ分享了数据并组织起了现在被称为“天堂文件”的调查。大多数参与其中的记者们过去本就已经参加过ICIJ的调查工作,也已经熟知需要遵守的原则。然而,每一个新的新闻都伴随着新的挑战。

调查工作包括在长达多个月的时间里在Global Knowledge Center的加密平台上仔细查看文档、邮件、PDF并为图片编码,这为我们提供了极为丰富的材料。如果我们发现的是关于公司或者公众人物的数据,具有新闻价值,我们就会开始做调查工作。在许多个案之中,出差、交叉检验信息、验证外部数据库以及进行采访和接触更多信源以了解潜在新闻都是必要的。

这个ICIJ的团队,由Marina Walker领军,成为了为天堂文件协作的记者提供指导的永久性导引团队。他们各有专长,Mar Cabra, Emilia Díaz-Struck, Cecile S.Gallego以及Rigoberto Carvajal帮助我们处理数以百万计的各种形式的数据。数据起初纷乱——但一旦整理出雏形,它会揭露财务往来、合约、银行转帐以及客户名单,还有如Glencore这样的跨国公司使用什么办法绕过法规在离岸地区避税和隐藏资产的。

数据庞杂,涵盖的时间从1950到2016,将近70年——Appleby和Asiaciti Trust的泄露与此前巴拿马文件中Mossack Fonseca的泄露最大的不同所在。但是客户的情况也不一样:跨国公司和巨富们可以被追踪至19个避税天堂,包括百慕大、巴哈马、马耳他、巴巴多斯岛、开曼群岛。在数据库中被发现的牵涉的人从英国女王到特朗普内阁成员,从歌星Bono和Shakira,到大公司苹果、耐克和脸书。

The Paradise Papers leak consists of about 1.4 terabytes' worth of data — a little more than half the size of last year's Panama Papers leak.

如果参与的记者们单枪匹马工作,不愿意与ICIJ团队分享合作的话,这个调查花费的就不会仅仅是几个月,而是几年时间了。ICIJ已经成为了一个全世界范围内跨境调查的典范。

我现在就分享一些我们在天堂文件工作过程中熟悉的工具和程序。它们分为三类:数码安全、文档搜索以及数据连接。

数码安全

Vera加密

ICIJ存储了在加密、开源的VeraCrypt系统中的1340万份天堂文件文档,它可以允许“隐藏文件”。这个程序还提供双重加密:需要密码访问第一层信息以及另一个密码以访问第二层——不可见的——“层”。所以在这个调查行动以外的人很难觉察到有这么一个第二“层”信息的存在。

加密邮件

ICIJ团队的每一个成员和我们的线人交流和互传文件都是使用加密邮件,比如Mailvelope。只需要交换PGP (Pretty Good Privacy) 密钥即可。

Global I-Hub:

类似于一种参与记者的内部脸书,Global I-Hub要通过用户注册和双信息验证系统访问。在这个平台上,群体依照话题兴趣被细分。此外还有一个公共时间线以及一个内部信息系统。“这是我们的虚拟新闻编辑室”,Mar Cabra,ICIJ的数据编辑说。这个平台是基于开源软件Oxwall构建的。

数据搜索

The Knowledge Center信息中心

要检查文档,记者们需要使用用户名和鉴定码访问一个加密的平台,被称为The Knowledge Center。这个搜索系统现在与此前全世界最主要的三大爆料泄露都有关系:离岸泄密、巴拿马文件以及天堂文件。

搜索引擎使得我们可以按照年份和文件类型以及数据地点来整理数据。一旦一个文档已经整理好,你就可以预览和下载它。

ICIJ开发者们使用三个软件创建了The Knowledge Center,它们是Apache Tika用来从文档中提取数据、Apache Solr用来编码、Blacklight用来提供直观好用的搜索平台。

Nuix

ICIJ的开发者和《南德意志报》的团队使用Nuix软件来处理超过1千万泄露的文档,其中包括邮件、扫描文档、PDF和图片。这个澳大利亚的Firepower程序使得我们可以完成一种手术式的对信息的仔细检查,并可以对图片进行光学识别以将它们进行可分析化处理。比如,当我们扫描一份合约或者一张票的时候,这些信息就会被存储为图片,但Nuix可以通过它们带有的文字识别并获取信息。

当信息被处理之后,天堂文件信息组就创立了数据库,在其中记者可以检查所有类别的文件。

数据连接

Linkurious and Neo4j:

In order to 为了视觉化天堂文件中的海量信息,记者们使用了Linkurious,一款能够将数据转化为图片、视觉化生动呈现权贵之间复杂而活跃的联系的软件。这个工具工作机理非常简单:它有一个搜索系统,一旦输入利益相关者,结果就会显示展示这个人在数据库中所有联系的图。

A look at the Linkurius system's data visualization.

Linkurius系统需要ICIJ信息团队做一些关键的预先步骤:天堂文件信息处于相关数据库中,但会被用Talend软件转化为Neo4j图表格式。

图片来自 ICIJ; 次级图片由Fabiola Torres López拍摄。

Tags: 

发表评论

Plain text

  • 不允许HTML标记。
  • Twitter message links are opened in new windows and rel="nofollow" is added.
  • 自动将网址与电子邮件地址转变为链接。
  • 自动断行和分段。
Please log in or register in order to comment this post.