数据化的中国政要

我一直很想写一写中国名人录这个网站。这个名人录收集了许多中国高官的生平，而且还在不断更新他们的行程以及公开的露面。它还能帮助我们了解这些高官的事业交叉点。这个网站声称，他们“保有4000余名中国军政教商和媒界的高官资料”，还对其中300名保持着跟踪记录。

对这个网站里数据准确性我并不敢打包票——这些更新及时并且看来很正式的数据来源于文汇集团。但这个网站的有趣之处不在这里，而是在于它对数据的组织方式以及由此带来的使用体验。虽然不能说中国名人录是对结构化新闻的深入实践，但它的确实现了部分理念。

在这个网站上，你能调出官员们的生平记录，可以选择文章模式，或者简历一般的列表模式。当然这也没有什么新奇之处，新奇的地方在于，在你浏览的每一个人物名字右边都会出现一个选择框。你选择那些你想比较的人之后，这个网站就会列出这些人的共同之处。对比的方面包括职位、工作地点以及受过教育的学校等。

这一功能不仅给数据赋予了语境，也同时发掘了数据的价值，并且这是通过数据库固有的结构实现的，而不是加外在标签，或者语法分析之类的方法。倒不是说语法分析不能在技术上得到同样效果，只是我觉得用数据库的手段会简单很多。

长远来说，中国名人录还有待完善。它只提供了简单的比较清单，在视觉上还不够吸引人，也不足以促使读者去深入探索。有很多网站在呈现数据的时候便使用了更视觉化的方式。例如muckety和silobreaker这两个网站。不过即便如此，只要假以时日，中国名人录仍能在数据可视化大为领先。

我最关注的还是数据结构的各种细节。我并没有机会去了解中国名人录的后台运作，不过据我猜测，这个网站是按照姓名、学校、职位、工作地以及日期这些标准来组织数据的。这样组织数据也很合理，不过可以再灵活一些，那样才能更好的匹配不同记录中的相同时间段。例如，假设官员A从1986年到1992年在成都工作，官员B从1991年至1996年在成都工作，而官员C则是从2000年至2005年在成都工作。系统应该能判定A与B的关系比他们各自和C的关系更加紧密。C虽然也和A、B一样曾在成都工作过，但是并非同一时间段，所以，至少在理论上说，C与两人的关系和A、B两人间的关系相比要弱一些。但现在在中国名人录上做类似以上A、B、C三个人的比较时，得出的只是干巴巴的数据。

我想要借此说明的是，当我们建立数据结构、并进一步搜集数据的时候，我们不应只关注搜集和更新数据的过程，还要思考最终通过这些数据要达成的最终产品或应用，这样才能更有效的搜集更有价值的数据，并且避免做大量无用功。

蔡翔祁（Reginald Chua），汤森路透数据总编，于集团纽约总部工作。他曾任香港《南华早报》总编，以及《华尔街日报》副总编。他的工作经历涵盖了平面媒体、电视、电台，以及新媒体。

此文原刊于作者博客，由Jack Liu翻译，Yolanda Ma编辑。国际记者网获作者授权翻译转载。

数据化的中国政要

by Reg Chua Oct 30, 2018 in Miscellaneous

by Reg Chua

Oct 30, 2018 in Miscellaneous