Plataforma Analice.me ajuda a analisar milhares de documentos automaticamente

porMariano Blejman
Jun 10, 2014 em Diversos

O santo graal da reportagem assistida por computador é a tentativa sistemática de organizar, cruzar e extrair informação que não está estruturada.

É mais fácil ver quando os dados vem em Excel. Mas, quando há toneladas de documentos, a análise torna-se cada vez mais complexa e a questão é sempre a mesma: encontrar nomes, lugares, datas, organizações, os verbos e as relações entre eles.

Com essa missão impossível, começamos no Hacks/Hackers Buenos Aires há dois anos um projeto que lançamos hoje: a Analice.me. A plataforma realiza análise semântica de documentos, detecta entidades e permite comparar essas listas. É o produto de um trabalho colaborativo que agora está começando a ter vida própria com um conjunto de dados sobre a ditadura militar na Argentina, que ocorreu entre 1976 e 1983. Os dados foram liberados em 24 de março para marcar o 38 º aniversário do golpe militar argentino. O sistema identifica automaticamente os nomes, lugares, datas e organizações em vários formatos. Nesta primeira etapa, a plataforma detecta os dados, gera listas e faz combinações para mostrar as relações.

O projeto aparece como um estudo de caso no Manual de Jornalismo de dados. A Analice.me surgiu a partir deste projeto e agora começa a andar sozinha.

A maioria dos produtos são APIs complicados, projetados para desenvolvedores, mas com pouca possibilidade de utilização para seres humanos. Se o DocumentCloud é um gestor fantástico de documentos e o Overview sabe como converter estes pontos, a Analice.me vem para ocupar um lugar que ninguém ainda assumiu, pelo menos não com um produto que as pessoas podem usar: fazer esses documentos falarem entre si e encontrar relações concretas.

Hoje, a versão disponível no site permite ao usuário fazer upload de documentos (PDFs, txts e/ou DOCs) para que o sistema detecte as entidades neles, organizando no banco de dados e permitindo download. Estas bases de dados podem também ser combinadas com outros aplicativos para gerar gráficos de relações, linhas de tempo, mapas ou qualquer outro tipo de visualização.

O software é desenvolvido sob licença GPLv2 em Ruby on Rails, Freeling, DocSplit, Resque, Elasticsearch e MongoDB. A equipe de desenvolvimento se baseia em Buenos Aires, juntamente com Vanetta Marcos, bolsista do Knight Mozilla Open News Fellowship que acaba de se mudar para Austin, Texas, para trabalhar no Texas Tribune.

A Analice.me tem uma meta ambiciosa: desenvolver uma série de algoritmos e funções para encontrar eventos em textos, e relacioná-los com outros eventos interessantes para um investigador. Existem vários experimentos relacionados, muitos dos quais você pode ler no blog Untangled do Knight Lab da Universidade Northwestern.

A análise das redes sociais, das relações de redes de poder e da influência é uma tendência emergente no jornalismo investigativo, mas ainda é pouco explorada nas redações. Em vez disso, a indústria tem focado a pesquisa no processamento de linguagem natural para procurar sentimentos: as marcas estão dispostas a pagar para saber o que as pessoas pensam sobre elas. Mas ainda não há uma plataforma para analisar fatos automaticamente. A Analice.me veio na hora certa para preencher essa necessidade.

Imagem cortesía de Analice.me