Na era dos dados grandes, os jornalistas cada vez mais contam histórias ricas de informações sobre temas como o número de fumantes por país ou as empresas de crescimento mais rápido no mundo .
Mas quando os dados estão presos em um PDF, pode ser uma dor de cabeça extraí-los e analisá-los para que possam ser apresentados de uma forma agradável aos consumidores de notícias.
Governos e organizações que liberam dados em PDFs estão "fazendo [assim] de ignorância ou malícia", disse Manuel Aristarán durante à IJNet durante o Hacks/Hackers Buenos Aires Media Party. Como os dados de arquivos PDF não podem ser facilmente copiados e colados, observou ele, mesmo os dados mais interessantes são muitas vezes deixados sem uso.
Para corrigir esse problema, Aristarán começou no ano passado a desenvolver um aplicativo, que extrai dados de tabelas em arquivos PDF. Logo depois, ele se ligou à organização de notícia sem fins lucrativos ProPublica, cujos desenvolvedores criaram seu próprio sistema interno para a extração de dados capturados em arquivos PDF.
O resultado é a Tabula, que permite ao usuário fazer upload de um arquivo (de texto) PDF em uma interface simples de Web e extrai os dados tabulares em formato CSV. Instruções de como os desenvolvedores podem utilizar e executar a Tabula estão disponíveis no site GitHub. O aplicativo é gratuito e está disponível sob a licença open-source do MIT.
O Departamento de Polícia de Minneapolis anunciou que não vai mais publicar dados de criminalidade em arquivos de Excel, o que torna mais simples para extração de dados. Em vez disso, vai torná-los disponíveis apenas em formato PDF. Jornalistas do MinnPost utilizaram a Tabula para extrair os dados. A organização de notícia foi, então, capaz de atualizar seu aplicativo de crime de Minneapolis com a nova informação. (O departamento de polícia mais tarde voltou a liberar dados de criminalidade no formato mais acessível em Excel.)
A nova-iorquina ProPublica está usando a Tabula para alimentar o banco de dados por trás de seus projeto Dollars for Docs. Usa divulgações exigidas das empresas farmacêuticas sobre seus pagamentos a médicos, outros profissionais médicos e instituições de saúde. Os dados são compilados de modo que os pacientes podem procurar o seu médico ou centro médico e receber uma listagem de todos os pagamentos correspondentes. Isso permite que os pacientes vejam, por exemplo, quanto dinheiro seus médicos recebem por palestras ou participação em conferência.
Cada empresa publica os dados de forma diferente, e a maioria publica em arquivos PDF. Algumas empresas fazem relatórios mensais, outros trimestrais , e outros ainda em uma programação contínua. Por exemplo, no terceiro trimestre de 2010, a empresa Merck apresentou este documento de 86 páginas representando milhares de linhas. E esse é apenas um de centenas - se não milhares - de arquivos que precisam ser processados para obter uma imagem completa dos dados.
A ProPublica usa tabula-extractor - o "motor " por trás da Tabula - além de código interno próprio para processar esses arquivos e importar os dados para o banco de dados que alimenta o site Dollars for Docs.
"Sem o Tabula , tenho quase certeza que um projeto como o Dollars for Docs seria simplesmente impossível", diz Mike Tigas, bolsista do Knight-Mozilla OpenNews Fellowship no ProPublica". O esforço e as horas-necessárias para extrair tantos dados de um PDF simplesmente não teriam sentido."
O jornal La Nación da Argentina usou a Tabula para extrair dados sobre o declínio do turismo no país bem como para produzir mapas dos resultados da votação que utilizou os dados de cada centro de votação.
Imagem cortesia de Sybren A. Stüvel via Flirckr sob licença Creative Commons.