A pesar de que acceder a bases de datos públicas puede ser más que un desafío, el periodismo de datos está demostrando ser una excelente herramienta de servicio público a los ciudadanos.
Por lo general, las bases de datos contienen inconsistencias y errores generados al ingresar la información, los que deben ser eliminados antes de realizar análisis y sacar conclusiones.
Una buena herramienta para lograrlo es Google Refine, que te permite depurar o “limpiar” datos eliminando inconsistencias.
Primero debes descargar Google Refine. Como se explica en esta guía, aunque el programa se maneja a través de buscadores de Internet, Refine es una aplicación de escritorio por lo que los datos que ingresas al programa no serán públicos. El programa es compatible con Windows, Mac y Linux y, lo mejor de todo, es gratis.
Después de darle un nombre a tu proyecto y de seleccionar el botón “create project”, verás los datos desplegados en Google Refine.
Ahora puedes empezar a trabajar en tu proyecto. Sin embargo, notarás en tu base de datos que la información figura de forma dispar. Por ejemplo, una fecha puede ser ingresada de formas diferentes: 6 de octubre de 2011, 06/10/2011, etc. Esto también puede pasar con cifras y palabras (por ejemplo Washington, D.C., puede ser ingresado como D.C., Distrito de Columbia, etc.).
El problema es que al realizar búsquedas para encontrar patrones en los datos, si la información no es ingresada en forma uniforme tus resultados no incluirán todos los campos por lo que no serán confiables.
Puedes solucionar esto usando la función “text or numeric facet feature” en Google Refine, que combina campos idénticos y te muestra cuántas veces se repiten. Por ejemplo, al utilizar esa función Refine te mostrará cuántas veces aparece D.C. y cuántas DC. (Puedes aprender más sobre esta función en este video en inglés).
Esta función también es útil para encontrar campos que pueden referirse a lo mismo pero fueron ingresados de forma diferente. Por ejemplo, en esta base de datos alterada sobre la ayuda económica que brinda Estados Unidos al mundo, los datos que se refieren a Camerún fueron ingresados de dos formas diferentes ("Camerún" y "Camerun"). También puedes editar los nombres de los campos en Refine para solucionar el problema.
Otra función interesante es “clustering”, que agrupa distintos valores de celdas por aproximación que pueden referirse a lo mismo. Puedes leer más sobre esta función y cómo utilizarla aquí.
Google Refine también te da la posibilidad de eliminar espacios en blanco para hacer que los datos sean uniformes. Es probable que no notes si un nombre tiene un espacio en blanco extra pero esto resultará problemático cuando analices los datos. Puedes eliminar esto usando la función “trim leading and trailing white space”, como se explica en esta guía creada por Paul Bradshaw.
Además, si cometes algún error al editar la base de datos puedes corregirlo fácilmente. Google Refine rastrea cada cambio que realizas por lo que resulta fácil deshacerlo.
Puedes descargar Refine aquí, y puedes consultar varias guías útiles en inglés que te ayudarán a empezar. Refine incluye además algunas bases de datos (como la usada en esta guía) que son útiles para empezar a usar el programa.
También puedes leer cómo ProPublica, un sitio de noticias sin fines de lucro que se especializa en investigaciones periodísticas de largo aliento, usó Refine para analizar una base de datos sobre los pagos que médicos recibieron de empresas farmacéuticas para promover sus productos. Gracias a esa investigación ProPublica ganó el premio Pulitzer.