Do caos ao furo: como foram escaneadas 7 mil páginas e revelado o uso indevido de cartão corporativo

por Isabel Seta e Igor Laltuf
Apr 2, 2025 em Jornalismo investigativo
Contas

Registros públicos, como recibos, comprovantes e notas fiscais podem ser a chave para revelar irregularidades no uso de verbas públicas. No entanto, analisar milhares de documentos desorganizados e digitalizados de forma precária pode ser uma tarefa desafiadora, especialmente ao tentar identificar padrões de gastos inapropriados. Ferramentas como Empty Page Deleter, Regex Extractor e OCR Add-Ons do DocumentCloud podem agilizar esse processo.

Leia a seguir como a Fiquem Sabendo, uma organização brasileira sem fins lucrativos especializada em transparência pública, usou o DocumentCloud para revelar como Jair Bolsonaro utilizou seu cartão corporativo para pagar despesas pessoais — incluindo viagens de iate, compras de luxo e férias — e como você também pode usar essas ferramentas para produzir reportagens. 

Imagine um presidente que, durante uma semana de férias de suas funções oficiais, usa dinheiro público para comprar mais de 200 quilos de picanha para sua comitiva, paga combustível para passeios de iate e até aluga equipamentos de resgate para seus mergulhos de lazer. Parece inacreditável, mas provamos que isso aconteceu no Brasil analisando documentos públicos.

Autoridades do Executivo podem utilizar um cartão corporativo para cobrir despesas durante viagens, pequenas compras e gastos sigilosos. Criado em 2001 para custear despesas menores e incomuns, esse método de pagamento já foi alvo de suspeitas de irregularidades e até de uma investigação do Congresso Federal em 2008.

O uso do cartão está sujeito aos princípios democráticos da administração pública descritos na Constituição brasileira (legalidade, impessoalidade, moralidade, publicidade e eficiência). Mas, por mais de duas décadas e cinco mandatos presidenciais, os gastos dos presidentes e suas equipes nesses cartões permaneceram um segredo bem guardado.

Como revelamos gastos ocultos

Isso mudou quando a Fiquem Sabendo, a organização sem fins lucrativos onde trabalhamos, entrou em ação. Por meio da Lei de Acesso à Informação (LAI), similar ao Freedom of Information Act (FOIA) dos Estados Unidos, divulgamos esses dados pela primeira vez. Primeiro, via LAI, obtivemos planilhas detalhando os gastos com cartões corporativos de 2002 a 2022, abrangendo quatro administrações presidenciais: Lula, Dilma, Temer e Bolsonaro. Depois, conseguimos acesso aos recibos e notas fiscais correspondentes para investigar a natureza dessas despesas e verificar os valores listados nas planilhas.

Em um esforço coletivo, jornalistas e voluntários escanearam manualmente milhares de recibos da presidência de Jair Bolsonaro (2019-2023). Focamos nesse período por ser o mais recente na época, embora o processo possa ser replicado para outras administrações.

As planilhas já tinham nos dado uma ideia de como o ex-presidente usava o cartão corporativo (financiando motociatas para apoiadores e gastando milhares de reais em padarias e perfumarias). Mas as notas fiscais e processos de compras escaneados nos deram um panorama sem precedentes dos detalhes desses pagamentos.

Nós tínhamos algumas perguntas para responder:

  • O que a notas fiscais poderiam revelar sobre o uso inapropriado do cartão corporativo que as planilhas não mostravam?
  • Os valores dos recibos correspondiam aos das planilhas, garantindo sua confiabilidade?
  • Como poderíamos usar as notas e relatórios com as justificativas dos gastos para equipar melhor nossos jornalistas parceiros em futuras investigações?

Mas para responder a essas perguntas, tivemos que lidar com um grande problema: os documentos estavam armazenados de forma completamente desordenada nos arquivos da Presidência. Estávamos diante de 7.673 páginas escaneadas, pouco legíveis e fora de ordem. Precisávamos de ajuda para armazenar todos esses documentos e transformá-los em arquivos legíveis e pesquisáveis.

Como limpamos e organizamos os documentos usando o DocumentCloud

Usando o DocumentCloud, uma ferramenta desenvolvida pela MuckRock Foundation, realizamos uma limpeza inicial dos PDFs contendo todos os documentos digitalizados. O primeiro passo desse processo foi a remoção de páginas em branco e a correção da orientação de cada página. Para isso, usamos os chamados “Add-On” fornecidos pelo DocumentCloud. 

O Add-On Empty Page Deleter removeu páginas em branco ao detectar aquelas que não continham texto -- e funcionou perfeitamente! A rotação das páginas foi feita com o Add-On Document Rotator, que ajustou a orientação de cada página com base no ângulo de inclinação. Por padrão, esses Add-Ons geraram novos arquivos com as alterações, preservando o documento original. Vale destacar que todo esse processo de limpeza foi simples e não exigiu habilidades de programação.

Antes, nosso arquivo estava assim:

 

Depois de usar os Add-ons, ficou assim:

 

Ainda precisávamos tornar cada documento facilmente pesquisável, o que foi um desafio devido à forma como algumas páginas haviam sido escaneadas. Testamos três mecanismos de Reconhecimento Óptico de Caracteres (OCR) disponíveis na plataforma DocumentCloud: Google Cloud Vision, Azure Document Intelligence e Amazon Textract.

Para avaliar os resultados, usamos o visualizador de texto simples do DocumentCloud, que nos permitiu comparar o conteúdo e a formatação do texto após a aplicação de cada mecanismo de OCR. Descobrimos que o Google Cloud Vision apresentou os melhores resultados para nossos documentos.

Esse passo foi crucial porque possibilitou buscas muito mais eficientes por palavras-chave. Por exemplo, para a página a seguir:

Uma página escaneada incluía vários comprovantes de saques de caixa eletrônico.


 

Antes da aplicação do OCR, a camada de texto subjacente nos documentos não estava bem formatada e continha muitos caracteres ilegíveis.

 

Depois de aplicar o Google Cloud Vision OCR, os documentos passaram a ter um texto claro e pesquisável, facilitando a identificação de informações específicas. Como por exemplo:


 


Não nos limitamos a tornar os documentos pesquisáveis. Trabalhamos para criar uma coleção organizada e facilitar ainda mais a busca por histórias encobertas. Fazer a correlação de notas fiscais, comprovantes de saques e justificativas de gastos não foi uma tarefa simples. Muitas vezes, os saques estavam em páginas distantes dos relatórios de despesas correspondentes, com outros recibos e documentos entre eles. Em muitos casos, nem estavam no mesmo arquivo. Para complicar ainda mais, vários recibos estavam escaneados em uma única página. Além disso, as páginas estavam fora de ordem e não eram numeradas, tornando difícil identificar onde começava e terminava cada conjunto de documentos relacionados a um gasto específico. 

Para resolver esses problemas, utilizamos o Add-On Regex Extractor do DocumentCloud para extrair os números de referência do governo e rotular os documentos de maneira organizada. Expressões regulares (ou Regex) usam um conjunto específico de regras para buscar e identificar padrões em textos, como datas e endereços de e-mail (se você quiser saber mais sobre expressões regulares, veja aqui esse conteúdo sobre Regex apresentada na conferência NICAR.)

O uso do Add-On Regex Extractor permitiu a organização de milhares de páginas, usando valores-chaves para agrupar os documentos em categorias como:

A partir das planilhas anteriormente disponibilizadas pelo governo, já sabíamos que uma quantia significativa de dinheiro havia sido sacada usando os cartões durante o mandato de Bolsonaro. Comparamos os comprovantes de saques com as planilhas de despesas para identificar as compras exatas e verificar a precisão das informações.

Usando o Add-On Regex Extractor, extraímos informações do texto gerado pelo OCR com base em padrões escritos com expressões regulares. Após eliminar duplicações, conseguimos criar uma planilha que compila todos os comprovantes de 854 saques em caixas eletrônicos, incluindo informações sobre os titulares dos cartões e as datas desses saques.

Por fim, precisávamos encontrar pistas para investigações dentro desse conjunto de recibos. Com nosso conhecimento prévio sobre o governo Bolsonaro e a ajuda do Regex Extractor Add-On, começamos a rotular documentos com palavras-chave como “picanha”, “jet ski”, “avião particular”, além dos nomes das praias favoritas do ex-presidente e de pessoas sob investigação.

Sempre que encontrávamos uma despesa suspeita, verificávamos a data em arquivos de jornais para confirmar exatamente onde o presidente estava e se o gasto fazia sentido dentro da finalidade do cartão corporativo.

Foi assim que descobrimos que o ex-presidente usou dinheiro público para cobrir despesas pessoais e de toda sua comitiva durante suas folgas, gastando milhares de reais em compras de supermercado e passeios de barco pelo litoral brasileiro. Você acredita que nós todos, os contribuintes, financiamos o Carnaval do presidente?

O que aprendemos para o futuro

Durante esta investigação, aprendemos algumas lições que podem ser úteis para outros jornalistas:

  • É difícil encontrar boas histórias em arquivos desorganizados. Passamos dias limpando, organizando e categorizando arquivos, o que foi essencial para nosso processo de reportagem.
  • O uso de um mecanismo de OCR de qualidade fez uma grande diferença ao permitir buscas eficientes para revelar fatos desconhecidos.
  • Conhecimento prévio sobre o assunto pode ser crucial para encontrar boas pistas. Se não tivéssemos acompanhado de perto o governo Bolsonaro e analisado previamente as planilhas de gastos, não saberíamos procurar por despesas extravagantes.
  • Cruzar referências e conferir as informações (o famoso “fact-checking”) das despesas são passos fundamentais para evitar erros na reportagem, mesmo com documentos aparentemente definitivos como comprovantes, recibos e notas. Utilizamos arquivos de jornais, relatórios anteriores, postagens públicas e registros oficiais para confirmar cada gasto.

Investigações além deste caso

Embora a investigação da Fiquem Sabendo tenha se concentrado na exposição do mau uso de recursos públicos por um ex-presidente, a versatilidade das ferramentas do DocumentCloud vai muito além deste caso. Jornalistas investigando condutas policiais podem usar o Regex Extractor para extrair detalhes-chave de boletins de ocorrência, enquanto defensores da transparência eleitoral podem aproveitar as ferramentas de OCR para tornar tabulações manuscritas de votos pesquisáveis e auditáveis.


A publicação desta reportagem, originalmente em inglês, foi feita na Muckrock. A tradução para o português foi gentilmente cedida pela equipe do Fiquem Sabendo para ser publicada aqui. 

Foto: do artigo original e editada no Canva