Analice.me ayuda a los periodistas a analizar automáticamente miles de documentos

porMariano Blejman
Jun 4, 2014 en Miscellaneous

El santo grial del periodismo asistido por computadoras es el intento sistemático de organizar, cruzar y extraer información que no está estructurada.

Más sencillo es ver cuando los datos vienen en Excel. Pero cuando existen toneladas de documentos el análisis se vuelve cada vez más complejo, y en el fondo siempre se trata de lo mismo: encontrar nombres, lugares, fechas, organizaciones, verbos y relaciones entre ellos.

Con esa misión imposible, comenzamos en Hacks/Hackers Buenos Aires hace dos años un proyecto que hoy lanzamos como Analice.me. La plataforma realiza análisis semántico de documentos, detecta entidades y permite comparar estas listas. Es el producto de un trabajo colaborativo que hoy comienza a tener vida propia con un set de datos sobre la última dictadura militar argentina, ocurrida entre 1976 y 1983, que fue liberado el 24 de marzo, con ocasión del 38 aniversario del golpe militar argentino. El sistema identifica automáticamente nombres, lugares, fechas y organizaciones en distintos formatos. En esta primera etapa, la plataforma permite detectar los datos, listarlos y hacer combinaciones para mostrar relaciones.

El proyecto aparece como un caso de estudio del Data Journalism Handbook. Analice.me surgió de este proyecto, y ahora comienza a andar solo.

La mayoría de los productos que hacen análisis de entidades apenas son APIs bastante aparatosas pensadas para desarrolladores, pero con poca posibilidad de uso para seres humanos. Si DocumentCloud es un fantástico gestor de documentos y Overview sabe convertir a estos en puntos, Analice.me viene a ocupar un lugar que todavía nadie tomó, al menos no con un producto que los seres humanos puedan usar: hacer que esos documentos hablen entre sí y encuentren relaciones concretas.

Hoy la versión disponible en la web permite al usuario subir documentos (PDFs, TXTs y/o DOCs) para que el sistema detecte en ellos entidades, los organice en la base de datos y permita su descarga. Esas bases de datos también pueden ser combinadas con otras aplicaciones para generar gráficos de relaciones, líneas de tiempo, mapas o cualquier otro tipo de visualización.

El software está desarrollado bajo licencias GPLv2, sobre Ruby on Rails, Freeling, DocSplit, Resque, Elasticsearch y MongoDB. El equipo de desarrollo lo lideramos con Marcos Vanetta, flamante Knight Open News fellow que acaba de instalarse en Austin, Texas, para trabajar en el Texas Tribune.

Analice.me tiene una meta ambiciosa: desarrollar una serie de algoritmos y funciones para encontrar eventos en los textos, y relacionarlos con otros eventos interesantes para un investigador. Existen varios experimentos relacionados, muchos de los que puedes leer en el blog Untangled del Knight Lab de la Northwestern University.

El análisis de las redes sociales, de las relaciones de poder y de las redes de influencias es una tendencia emergente en la investigación periodística pero todavía ha sido poco explotada en las redacciones. En cambio, la industria ha orientado la investigación sobre procesamiento de lenguaje natural hacia la búsqueda de sentimientos: las marcas están dispuestas a pagar para saber qué piensa la gente de ellos. Pero todavía no existe una plataforma que permita analizar hechos de forma automática. Analice.me llegó en el momento preciso para llenar esta necesidad.

Mariano Blejman, editor y emprendedor de medios con una especialización en periodismo de datos, es becario de la Knight International Journalism Fellowship.

La imagen es cortesía de analice.me