如何搜索深层网络:数据提取

作者 Sandra Crucianelli
Jun 12, 2012 发表在 Miscellaneous

知道如何查找数据,已经成为新闻业日益宝贵的技能。

在这个系列的第一部分,我们学会了如何通过高级搜索探寻深层网页。在这里,你将会找到搜索和检索数据的技术和工具。

  • 数据提取

检索数据的最简单方法是从PDF文件中提取表格的内容,将其导入Excel电子表格。这里有很多付费的选择,但是你可以尝试免费的转换器,例如Zamzar.com,你还不用为其支付订阅费。

记住,很多上传到网站的表格和图形都是通过图像格式,所以你在搜集数据时,还应考虑Flickr和谷歌图片这样的平台。光学字符识别软件也是一个很大的帮助,Free Ocr就是一个简单、免费的选择。

这是关于寻找在线数据的第二篇,也是最后一篇系列文章。

Image: CC-licensed by altemark in Flickr.