数据化的中国政要

by Reg Chua
Oct 30, 2018 in Miscellaneous

我一直很想写一写中国名人录这个网站。这个名人录收集了许多中国高官的生平,而且还在不断更新他们的行程以及公开的露面。它还能帮助我们了解这些高官的事业交叉点。这个网站声称,他们“保有4000余名中国军政教商和媒界的高官资料”,还对其中300名保持着跟踪记录。

对这个网站里数据准确性我并不敢打包票——这些更新及时并且看来很正式的数据来源于文汇集团。但这个网站的有趣之处不在这里,而是在于它对数据的组织方式以及由此带来的使用体验。虽然不能说中国名人录是对结构化新闻的深入实践,但它的确实现了部分理念。

在这个网站上,你能调出官员们的生平记录,可以选择文章模式,或者简历一般的列表模式。当然这也没有什么新奇之处,新奇的地方在于,在你浏览的每一个人物名字右边都会出现一个选择框。你选择那些你想比较的人之后,这个网站就会列出这些人的共同之处。对比的方面包括职位、工作地点以及受过教育的学校等。

这一功能不仅给数据赋予了语境,也同时发掘了数据的价值,并且这是通过数据库固有的结构实现的,而不是加外在标签,或者语法分析之类的方法。倒不是说语法分析不能在技术上得到同样效果,只是我觉得用数据库的手段会简单很多。

长远来说,中国名人录还有待完善。它只提供了简单的比较清单,在视觉上还不够吸引人,也不足以促使读者去深入探索。有很多网站在呈现数据的时候便使用了更视觉化的方式。例如mucketysilobreaker这两个网站。不过即便如此,只要假以时日,中国名人录仍能在数据可视化大为领先。

我最关注的还是数据结构的各种细节。我并没有机会去了解中国名人录的后台运作,不过据我猜测,这个网站是按照姓名、学校、职位、工作地以及日期这些标准来组织数据的。这样组织数据也很合理,不过可以再灵活一些,那样才能更好的匹配不同记录中的相同时间段。例如,假设官员A从1986年到1992年在成都工作,官员B从1991年至1996年在成都工作,而官员C则是从2000年至2005年在成都工作。系统应该能判定A与B的关系比他们各自和C的关系更加紧密。C虽然也和A、B一样曾在成都工作过,但是并非同一时间段,所以,至少在理论上说,C与两人的关系和A、B两人间的关系相比要弱一些。但现在在中国名人录上做类似以上A、B、C三个人的比较时,得出的只是干巴巴的数据。

我想要借此说明的是,当我们建立数据结构、并进一步搜集数据的时候,我们不应只关注搜集和更新数据的过程,还要思考最终通过这些数据要达成的最终产品或应用,这样才能更有效的搜集更有价值的数据,并且避免做大量无用功。

蔡翔祁(Reginald Chua),汤森路透数据总编,于集团纽约总部工作。他曾任香港《南华早报》总编,以及《华尔街日报》副总编。他的工作经历涵盖了平面媒体、电视、电台,以及新媒体。

此文原刊于作者博客,由Jack Liu翻译,Yolanda Ma编辑。国际记者网获作者授权翻译转载。