Cómo los periodistas pueden encontrar, extraer y utilizar datos abiertos

por Juan Manuel Casanueva
Mar 18, 2015 en Periodismo de datos

Desde que la información se hizo ampliamente disponible en la web, los defensores de la transparencia han estado presionando para que los datos públicos adopten un formato abierto. Grupos como ILDA  en Latinoamérica y el OGP Open Data working group a nivel mundial se esfuerzan no solo en investigar y analizar la apertura de los datos públicos, sino también en evaluar de qué manera los infomediarios están utilizando los datos abiertos.

Periodistas, hackers civiles, académicos y organizaciones de la sociedad civil son algunos de los usuarios de datos abiertos más activos que se dedican a transformar esos datos en información consumible para el público. Los periodistas latinoamericanos han sido especialmente creativos a la hora de alcanzar diferentes fuentes de datos para sus investigaciones e historias, pero debido a que el movimiento de datos abiertos es relativamente joven en la región, la búsqueda de datos limpios, utilizables y disponibles todavía puede ser un desafío.

Como becario ICFJ Knight y co-promotor de la Escuela de Datos y de comunidades de datos abiertos en Latinoamérica, estoy en contacto directo con las necesidades y los trucos con que los periodistas tienden a enfrentarse mientras buscan o utilizan datos. Conduje un taller sobre este tema en la Media Party Miami, un evento de dos días en Florida que reunió a periodistas, hackers, académicos y estudiantes dedicados a la innovación mediática en Estados Unidos y Latinoamérica, y que fue organizado por el becario Knight Mariano Blejman. He aquí un resumen de este evento:

¿Dónde están los datos?

- Muy pocos países y ciudades de Latinoamérica tienen portales de datos abiertos (Chile y Buenos Aires son las principales referencias regionales). A diferencia del caso de Estados Unidos y de algunos países europeos, quien necesite datos abiertos tendrá que recolectarlos de incipientes portales gubernamentales o civiles. En países como México o Perú, sin embargo, periodistas, hackers civiles y organizaciones de la sociedad civil han liberado muchos datos y los han puesto a disposición en portales ciudadanos.

- El movimiento por los datos abiertos ha demostrado de que los datos están en todas partes y que los esfuerzos en equipo pueden contribuir a liberar datos claves de ciudades o países. Así que si los datos están disponibles pero no han sido abiertos, los periodistas pueden utilizar el proyecto colaborativo Voz Data de La Nación como guía.

- Pero recuerda que estamos viviendo en la era de la información y que la recolección de la misma se vuelve cada día más fácil con el uso de aplicaciones móviles, tecnologías ponibles y programas de recolección de datos que utilizan una gran variedad de fuentes, desde los signos vitales de una persona hasta los flujos de información de las redes sociales.

¿Cómo puedo extraer y limpiar los datos?

- Si los datos están disponibles, lo más probable es que estén en formatos cerrados o semicerrados tales como PDFs. En estos casos, es muy importante que los periodistas desarrollen capacidades de scraping y se conviertan en expertos en el uso de diferentes herramientas para importar datos de páginas web, archivos PDF y documentos escaneados. Una lista de tutoriales y herramientas está disponible en schoolofdata.org

- Limpiar y estandarizar datos es otra habilidad básica que los periodistas necesitan desarrollar. Herramientas como OpenRefine o incluso el uso inteligente de las hojas de cálculo puede permitirte deshacerte de los datos duplicados y combinar variables y conjuntos de datos.

¿Cómo puedo usar los datos abiertos?

- Los datos se utilizan principalmente para hacer análisis, pero el enfoque de estos puede variar. Por ejemplo, los usuarios más narrativos tienden a demostrar una serie de hipótesis (comúnmente una noticia o historia principal) mediante el análisis de los datos. Este enfoque puede ser muy eficaz si la visión general del periodista sobre los datos es precisa y si existe una alta probabilidad de que encuentre las respuestas que necesita en el conjunto de datos. Por otro lado, los usuarios más analíticos (codificadores o científicos) suelen tener un enfoque más “agnóstico”. Analizan todas las variables y determinan y prueban las hipótesis que los datos mismos les muestran.

- El análisis de datos puede ser un reto, pero los desafíos que aparecen en su procesamiento y en el transcurso de la investigación pueden ser abordados mucho mejor si se cuenta con un equipo que incluya tanto a narradores como a técnicos. Puedes ver el resultado de un esfuerzo en equipo en este trabajo de La Nación.

- No todos los periodistas latinoamericanos están de acuerdo en cómo se deben utilizar los datos en una narración. Pero, sin entrar en un debate sobre la visualización de datos, un enfoque que ha sido útil para algunos periodistas es la utilización de los datos como una fuente para argumentar y marcar hitos. Muchas de las conclusiones que aportan los datos deberían utilizarse para reforzar las piezas clave de una historia y no para dictar la historia.

Imagen con licencia Creative Commons, cortesía de Stockmonkeys.com.