El Big Data es para las máquinas; ¿cómo usar pequeños conjuntos de datos en el periodismo?

por Juan Pablo Marín Díaz
Oct 30, 2018 en Periodismo de datos

Existe una gran expectativa en torno al Big Data en todas las industrias, y el periodismo no es una excepción. Los Panama Papers y el posterior Premio Pulitzer otorgado al equipo detrás del proyecto marcaron un hito que demostró cómo la tecnología, la colaboración y los datos pueden crear historias impactantes.

En Datasketch estamos ayudando a los periodistas a darle sentido a los datos proporcionándoles herramientas fáciles de usar para que puedan mejorar las narraciones resultantes.

Uno de los primeros desafíos es desmitificar el Big Data y lo que significa en el contexto de las investigaciones basadas en datos.

En el caso específico de los Panama Papers, la cantidad total de datos filtrados fue de alrededor de 2,6 terabytes (TB). Sin embargo, solo 22 megabytes (MB) llegaron a la base de datos final que se utilizó en la mayoría de las publicaciones.

Para poner esto en perspectiva, imaginemos que 1MB equivale un centavo de dólar; 1TB equivaldría a US$10.000. Por lo tanto, de los US$26.000 de información disponible, solo se publicaron 22 centavos en la base de datos. Esto significa que mucha información no se utilizó.

Desentrañar verdades requiere reunir múltiples fuentes de información y organizarlas en grupos más pequeños que conformen una historia. Para cualquier pieza impulsada por datos, cada fuente podría ser una ruta para explorar una historia única. Esta es la razón por la cual, si bien el periodismo se ha beneficiado de las herramientas de análisis de Big Data, todavía es bastante difícil usar la tecnología para respaldar un periodismo de datos accesible.

El advenimiento del pequeño Big Data

¿Qué tan grande es el Big Data? Depende de a quién le preguntes. Algunos dicen que los datos son grandes si su tamaño es mayor a 1TB (el equivalente a dos millones de fotos).

Prefiero usar otra regla general: "El Big data es algo que no cabe en una hoja de cálculo".

Como se señaló anteriormente, incluso en un proyecto tan grande como los Panama Papers, los datos finales que se utilizaron para producir las historias periodísticas eran en realidad colecciones de pequeños archivos de datos. Los seres humanos necesitamos digerir piezas de información que sean accesibles, estén agregadas y sean informativas. No importa cuán grande sea tu pieza de periodismo basado en datos, es probable que uses múltiples conjuntos pequeños de datos.

No nos engañemos: el Big Data es para las máquinas. En periodismo, en lugar de centrarnos en grandes conjuntos de datos, debemos concentrarnos en convertirnos en maestros del uso de pequeños conjuntos de datos. Imagina un par de hojas de cálculo con un máximo de un par de miles de filas de información agregada.

Muchos periodistas aún carecen de una forma para reunir y encontrar fácilmente pequeños conjuntos de datos, y de una manera de explorarlos y combinarlos en sus historias.

Reunir pequeños conjuntos de datos

Uno de mis lugares favoritos para encontrar pequeños conjuntos de datos es data.world, que utiliza tecnologías web y comunidades semánticas para abrir conjuntos de datos en diferentes formatos junto con herramientas visuales para analizarlos. Statista es otro sitio que recopila millones de estadísticas sobre diferentes proyectos y es particularmente útil para visualizar las tendencias comerciales y de mercado.

Una forma innovadora de mejorar la recopilación de pequeños conjuntos de datos es observar los datos curados por los ciudadanos. La pequeña información impulsada por los ciudadanos es muy poderosa no solo como fuente de datos, sino también como una forma de interactuar con los lectores y encontrar temas interesantes para producir historias. Hay un número cada vez mayor de ciudadanos que utilizan las redes sociales para publicar datos concretos sobre diferentes temas que les interesan.

Combinar pequeños conjuntos de datos

En lo que se refiere a combinar pequeños conjuntos de datos en historias, la mejor manera sería usar herramientas de visualización de datos como datawrapper o flourish. Otra herramienta que inicialmente se concibió como una forma para que los científicos compartieran datos y gráficos es Figshare, que ahora contiene mucha información útil para cualquier investigador.

Te invitamos también a explorar más recursos de periodismo de datos en nuestro portal para América Latina, Datasketch.

Usar datos pequeños para historias impactantes

Dominar el uso de los datos puede abrir la puerta a formas periodísticas nuevas e innovadoras que generen resultados tangibles. El año pasado, los periodistas de Datasketch se conectaron con un usuario de Twitter que estaba reuniendo información sobre femicidios, lo que generó un informe sobre la violencia contra las mujeres en Colombia.

Juntos construimos la base de datos más completa sobre femicidios de ese país utilizando diferentes fuentes, como solicitudes de libertad de información utilizando nuestra plataforma QueremosDatos, conjuntos de datos personalizados, encuestas online y más.

El resultado ayudó a dar forma al informe final, en el cual pusimos más de 30 pequeños conjuntos de datos online. Este trabajo no solo contó una historia sobre la violencia, sino que también ayudó a dar una alternativa para el cambio al presionar al gobierno colombiano para que actúe sobre este tema con una intervención física que hicimos a partir de los datos reunidos sobre femicidios.

Imagen con licencia Creative Commons en Pexels, vía Kevin Ku.