在数月的电话和电子邮件沟通后,你终于从政府机构得到了梦寐以求的数据。但是在幻想自己通过优秀的作品获得普利策奖之前,你可能会发现数据是如此杂乱无章,很难搞清楚。
谷歌“Refine”可以让你在进行分析之前整理你的数据。
首先,你需要下载谷歌Refine。就像这个教程中提到的一样,尽管你通过浏览器使用谷歌Refine,但是Refine是一个桌面应用程序,因此你不用担心上传一些敏感的数据。这个程序兼容Windows、Mac和Linux操作系统,而且它是免费的。
当你为项目命名并点击“创建项目(create project)”,你将看到数据在谷歌Refine中显示出来。
现在你可以开始自己的项目了。但是你将会看到在你收集的数据可能以不同的格式表现。例如日期可以用不同的方式显示出来:Oct 6, 2011或10/06/2011等。这也有可能出现在数字和文字中(D.C.可以显示为DC或District of Columbia等).
因此可能出现这样的问题:不同的数据格式可能会影响数据搜索的结果。如果你的数据没有以统一的格式输入,你的结果可能会排除一些选项,从而产生不可靠的结果。
不过你可以利用谷歌Refine的文字或数字功能纠正这个错误:它能结合相同的数据元素,显示重复的次数。例如它可以显示有多少地方是DC,有多少地方是District of Columbia。(你可以通过这个视频教程来了解更多内容。)
这个功能也可以帮助你找到那些被输入不同名字,但是可以转换成相同内容的数据。例如,在这份美国对它国经济援助的数据中,提到喀麦隆的数据出现了两次(Cameron和Cameroon),你也可以通过编辑名字来纠正这个错误。
另外一个有趣的相关功能是“clustering(集群)”,它可以找到那些可以被转化为相同元素的不同数据单元。你可以在这里阅读更多关于“clustering”的内容和它是如何工作的。
谷歌Refine同样可以让你消除空白数据单元,让数据看起来更加整洁均匀。你可能会注意到一些数据单元具有多余的空格,这些空格可能在你分析数据时引起错误。你可以使用“trim leading and trailing white space(去除开口和结尾的空白)”选项删除这些多余的空格,就像Paul Bradshaw在指南中提到的一样。
此外,如果在编辑过程中出现了错误,你可以轻易的撤销自己的操作。谷歌Refine跟踪你做出的每一个编辑或变更,因此你可以很简单的改回你的数据。
你可以点击这里下载Refine,这里也有很多实用的教程。Refine也提供很多数据样本让你进行尝试。
ProPublica在其普利策获奖报道“Dollars for Docs. How Industry Dollars Reach Your Doctors” 中使用了Refine,点击这里查看他们的指南。你也可以点击这里查看Bradshaw的指南。
想了解更多机会,敬请订阅我们免费的每周快报,关注IJNet中文微博,或参与新浪微群的讨论。
This story was originally published in English, and translated by IJNet Chinese Editor Jingyuan Huang,edited by Yu Yan.