知道如何查找数据,已经成为新闻业日益宝贵的技能。
在这个系列的第一部分,我们学会了如何通过高级搜索探寻深层网页。在这里,你将会找到搜索和检索数据的技术和工具。
- 数据提取
检索数据的最简单方法是从PDF文件中提取表格的内容,将其导入Excel电子表格。这里有很多付费的选择,但是你可以尝试免费的转换器,例如Zamzar.com,你还不用为其支付订阅费。
记住,很多上传到网站的表格和图形都是通过图像格式,所以你在搜集数据时,还应考虑Flickr和谷歌图片这样的平台。光学字符识别软件也是一个很大的帮助,Free Ocr就是一个简单、免费的选择。
-
其它谷歌工具
-
探索谷歌公共数据库。
-
谷歌书籍和谷歌博客也包括很多有用的数据,因为它们允许你通过时间过滤数据。例如:这个在SoloLocal发表的文章就基于对谷歌书籍的搜索,使用地理定位和时间轴:搜索包括了过去三年出版的书籍。
-
使用语义学网络资源,例如Wolfram|Alpha。
-
使用Copernic的免费版。这个强大的搜索工具将允许你通过分类来定义搜索,例如“美国政府文件。”(该软件只适用于Windows)
-
查找其它国家关于本国的数据。例如来自美国人口普查数据库的数据包括其它国家移民的数据更新。(这份国家资料被埋藏起来,不过你可以在这里找到。数据从2002年延续到2011年,它允许你根据时间研究变量,或比较不同的国家。)
-
检索那些被删除,但是可能被“缓存”或被截图的数据资料。你可以使用Internet Archive和它的“Wayback Machine”功能。
-
前往上级目录或索引。例如这个链接http://www.justiciachaco.gov.ar/listas/C_A_Civ_y_Com_Sala_II_Pro/Cam_Civ_Sala_II_Pro_2009-11-13.Txt可以变成http://www.justiciachaco.gov.ar/listas/。
-
通过Incywincy来寻找有趣的数据库,这个整合搜索引擎(metasearch engine)可以返回从深层网络搜索的结果。点击这里查看数据库的一个简单列表。
- 使用SocialMention, 48ers之类的工具来监测社交网络,或使用Twitterfall在实时搜索Twitter,该工具允许你参照地理进行搜索,或通过名字或主题进行搜索。
这是关于寻找在线数据的第二篇,也是最后一篇系列文章。
Image: CC-licensed by altemark in Flickr.