Tabula, una herramienta para agilizar el periodismo de datos

por Jessica Weiss
Oct 30, 2018 en Periodismo de datos

En la era de los grandes volúmenes de información, los periodistas tienen reportajes cada vez más completos con datos sobre temas muy variados, como el número de fumadores por país o las compañías de más rápido crecimiento en el mundo.

Sin embargo, cuando los datos se encuentran atrapados en un PDF, su extracción y análisis para su presentación y utilización de forma amigable puede convertirse en un dolor de cabeza.

Los gobiernos y las organizaciones que liberan sus datos en archivos de PDF “lo hacen por ignorancia o malicia", dijo el programador y becario de la Knight-Mozilla Open News Fellowship en Argentina, Manuel Aristarán. Durante el Hacks/Hackers Buenos Aires Media Party, Aristarán habló con IJNet, y mencionó que dado que la información de los archivos PDF no puede ser copiada y pegada de manera fácil, hasta los datos más interesantes no pueden ser utilizados.

Para solucionar este problema, Aristarán comenzó a desarrollar una aplicación web a finales del año pasado que extrae los datos de las tablas en archivos de PDF. Poco después, se vinculó a la organización de noticias sin fines de lucro ProPublica, cuyos desarrolladores habían creado su propio sistema interno para la extracción de datos capturados en archivos PDF.

El resultado es Tabula, un programa que permite a los usuarios subir un archivo (en texto) en PDF a través de una interfaz web sencilla, para después extraer los datos tabulares en formato CSV, listos para su uso. Las instrucciones de cómo los desarrolladores pueden utilizar y ejecutar Tabula están disponibles en GitHub. La aplicación es gratuita y está disponible bajo licencia de código abierto del MIT.

El Departamento de Policía de Minneapolis anunció este mes que ya no iba a publicar datos sobre la delincuencia en archivos de Excel, algo que facilitaba su extracción. Ahora solo estarían disponibles en formato PDF. Los periodistas del Minneapolis Post utilizaron Tabula para la aplicación "Minneapolis crime app", utilizando la nueva información. Poco después, el departamento de policía decidió volver al formato accesible de Excel.

ProPublica, una organización de noticias con sede en Nueva York, está utilizando Tabula para completar la base de datos detrás de su proyecto "Dollars for Docs". Este proyecto utiliza información de compañías farmacéuticas, tales como pagos que se realizan a los médicos y a otros proveedores sanitarios y a instituciones de salud. Los datos son compilados para que los pacientes puedan buscar por nombre a su médico o centro de salud y recibir una lista de todos los pagos que estos reciben. Esto permite a los pacientes ver, por ejemplo, cuánto dinero les suministran estas compañías por hablar en público o para participar en conferencias.

Cada empresa hace públicos los datos de manera diferente, y la mayoría se envían en formato PDF. Algunas empresas informan de manera mensual, otras reportan de manera trimestral, y muchas otras de manera programada. Por ejemplo, en los últimos meses del 2010, la firma Merck presentó un informe de 86 páginas, que contenía miles de filas de datos. Y eso es sólo uno de los cientos - si no miles - de archivos que se pueden necesitar al ser procesados para obtener una imagen global de los datos. ProPublica también utiliza el tabula-extractor -un "motor" detrás de Tabula- y algunos de sus códigos internos para procesar archivos e importarlos a la base de datos que hace posible el sitio Dollars for Docs.

"Sin Tabula, estoy seguro de que un proyecto como Dollars for Docs sería simplemente imposible", dice Mike Tigas, becario de la Knight-Mozilla OpenNews Fellowship en ProPublica. "Tomando en cuenta el esfuerzo y las horas de trabajo para copiar tantos datos de archivos en PDF, simplemente no tendría sentido intentarlo".

El periódico de Argentina La Nación utilizó Tabula para extraer los datos sobre la disminución de turismo en el país, así como para elaborar mapas de resultados de elecciones, a través de los datos publicados por los centros de votación locales.

Texto traducido del inglés al español por Andrea Arzaba.

Imagen cortesía del usuario de Flickr Sybren A. Stüvel bajo una licencia de Creative Commons.