Icfj 的一个项目

三个帮助数码媒体记者在网站关闭情况下备份资料的工具

作者 Laura Hazard Owen
Oct 30, 2018 发表在 数字新闻

Gothamist和DNAinfo本地新闻网在这个月初突然关闭,成为了对于希望保存他们工作成果的数码时代记者的一个鲜明提醒:备份!备份!

还不仅仅是新闻应用和数码互动无法永远留存;就如同我的同事Shan Wang九月份在调查更广范畴的存储备份工作时所写的,“那么多先锋的数据新闻工作在网上不再存在了,或者只剩下一个‘鬼影’。”同样,问题还在于数码新闻记者们,将来可能会需要找新的工作,可能需要向潜在新雇主展示他们以往的作品,那么如果以往工作所在网站都没有了,皮之不存毛将焉附呢。即使你不会找新的工作,你可能也会需要保存资料,多年以后,你知道——会有意义。

幸运的是,对于那些没有预见到提前存储备份的记者(我们绝大多数都是),有一些解决方案出现了。

Save My News,这个月由Ben Welsh发起,他是《洛杉矶时报》数码新闻团队的主编,帮助记者们 (目前大约有300人)存储他们的链接到Internet Archive以及WebCite。你可以下载所有这些资料以及链接,就好像Excel表格一样。 

Welsh在11月6号创建了一个工具,在DNAinfo网站关闭两天之后。“在社交媒体上,我看到很多同行们惊恐愤怒,”他说。“这似乎是一个提升人们对于他们工作的脆弱性的关注意识的特别有力的好机会——他们所付出那么多心血所做的新闻工作可能顷刻之间就从互联网消失,噗地一声。”Save-your-work服务并不新奇,Welsh指出。The Internet Archive则提供帮助记者们保存好他们工作成果的工具,但许多人就是完全不知道。“许多在互联网上工作的人却一无所知,直到一切都无法挽回,才知道他们的工作有多么不堪一击,”Welsh说。“而且都不是一定得是个恶意的网站开设者关闭站点才会造成你的作品损失,一次网站重新设计装修都可能带来这样的结果。”

Welsh计划把更多的资料存储服务整合进Save My News,但是他也打算使得服务保持简约:“我在Heroku上免费提供服务,而且完全没有盈利模式。我希望避免把它弄得过于复杂。”

Parker Higgins,在新闻自由基金会的特殊项目总监,在发觉Gothamist以及DNAinfo网站可能会永久消失,且相关资料可能必须得通过Internet Archive之类的服务来重新归档时,在推特上呼吁跟这些网站的记者们合作以挽救他们的工作。他开始编程写代码来做这件事情,接着这些网站重新归来了,他得意能够制作一个更加有效和快速的工具,这个工具可以在区区几小时内提供给人们他们曾在这些网站上发表的内容的PDF版本。

这个工具,叫做 “Gotham抓取器,” 现在已经在Github上面开源。 “少做一些修改,许多记者就可以使用这些工具来创造一个文件夹存储他们的所有作品,”Higgins在新闻自由博客上写道。这需要一些编程知识——并且“并且绝大多数我交流过的在这些地方工作的记者并不编程,”Higgins告诉我。“但是我希望看到人们把这些代码进行修改,作出适应其他网站的版本。”他目前已经抓取了超过50000篇文章,全部转格式成为了PDF文件。

Gotham抓取器把作品存储为PDF格式是因为大多数联络Higgins的记者希望如此。“当你有一系列作品,并且你想要为了应聘一份新工作发出一个附件的时候,PDF是一个理想的文件格式。如果是想要为读者作更长期的存储,也有其他更好的方式。最终,这些页面应该是HTML格式的,存储在一个数据库之中,”Higgins解释。“我希望这能够促使人们去想一想长期的备份和浏览。我的意思是,Gothamist和DNAinfo的命运特别让人警惕, 这可是一大堆本地新闻唯一的记录网站。”

如果你希望设置好就忘掉它,那可以选择Authory,去年写好试验版的网络服务 (在Google谷歌数码新闻项目的资助下,公司位置在德国汉堡) 在今年夏天面向公众开放。(透露:我开始免费使用Authory,条件是提供试验版使用反馈。) Eric Hauch,它的创始人和CEO,为Axel Springer和德国金融时报工作,开始意识到当他最喜欢的记者发表新报道时并不容易察觉。

当他开始跟其他记者聊起能够帮助解决这一问题的工具时,“他们告诉我他们不仅仅在面向读者更新方面有问题。他们也希望自己能够更好地追踪自己的作品。如果能够把这些新内容都整合起来将很有必要。”在最初的设立之后,Authory自动地备份一个记者的所有报道 (无论他们是在什么平台发表的)并且使得读者按照作者进行“订阅”,所以他们能够收到邮件提醒,告知一个人又发表新作品了。(Muck Rack网站也为记者在提醒方面发挥了类似的功能,但是并没有备份记者的作品。Byliner网站曾经提供相近的追踪记者服务。) “这个为记者建立备份的点子就是我们突然冒出来加上去的,但是现在它成为了我们工作的中心,” Hauch说。

两个星期的试用是免费的,在那之后,一个月7美元,或者一年70美元。Authory还处于非常初级的阶段;目前,它只有不到1000个活跃用户,基本都在美国和英国。它还能做到从有简易付费墙的网站抓取内容,甚至像《华尔街日报》这样的严格付费网站,当记者登录之后也可以做到。在未来,它还会支持更多的严格付费站点内容。

用户们可以在Authory网站上浏览文章的全文,也可以发邮件到hello@authory.com要求把部分或全部文章转为XML或者HTML格式文件。最终,他们将能够一键下载所有文章,也可以PDF格式文件。 

这意味着“你不需要永远依赖我们,” Hauch说。“一些人害怕我们可能会被捧杀关张,我们当然不希望如此。”但是——嗯——这是互联网,所以,谁知道呢。

此文首先出现在尼曼实验室,经允许转载。

题图来自 Flickr的Marcin Wichary