2 ferramentas gratuitas e fáceis de usar para raspagem de dados

por Sanjit Oberai
Jun 14, 2019 em Jornalismo de dados
Dados

Usar dados em reportagens permite encontrar histórias mais escondidas e criar visualizações que envolvam mais o público.

Mas primeiro, você precisará dos números em um formato fácil e utilizável. Afinal, os conjuntos de dados costumam ficar presos em PDFs ou em sites, o que pode dificultar que os jornalistas os analisem em suas reportagens. Para fazer isso, você precisará "raspar" os dados dessas fontes e, em seguida, convertê-los em um formato que permitirá pesquisar, classificar e filtrar as informações.

Existem muitas maneiras de coletar dados. Neste artigo, examinamos duas ferramentas simples que não exigem conhecimento de programação ou codificação para usar. E são grauitas.

Raspando dados de uma página online

Quando nos deparamos com dados que gostaríamos de extrair de uma página da web, a tendência é tentar copiá-los e colá-los diretamente em uma planilha do Excel. Essa abordagem, no entanto, geralmente não funciona tão bem.

É aqui que o Table Capture pode ajudar. Essa extensão gratuita do Google Chrome permite copiar tabelas em formato HTML da Web e colá-las no Microsoft Excel, Open Office ou Planilhas Google.

No exemplo abaixo, usamos o Table Capture para coletar dados sobre a tuberculose do TBFacts, um site que publica dados gratuitos sobre a doença, no Google Sheets.

1) Para começar, você precisará instalar o aplicativo Table Capture da Chrome Web Store. Depois disso, você poderá acessá-lo no canto superior direito do navegador. A seta na imagem abaixo aponta para o ícone do Table Capture.

data scrape 1

2) O ícone do Table Capture muda de preto para vermelho quando detecta tabelas HTML em um site. Ao clicar no ícone vermelho, você abre um menu suspenso que mostra os dados na página da web que pode copiar. Neste exemplo, há uma tabela contendo dados que você pode extrair.data scrape 2

3) Para extrair este conjunto de dados, primeiro clique em “(123 x 4)” no menu suspenso: isso selecionará e copiará os dados automaticamente. Em seguida, clique no ícone da planilha verde no canto superior direito do menu suspenso para abrir o Google Sheets e cole os dados na planilha.

data scrape A

Nota: Se uma página da web tiver várias tabelas, clique em "Selecionar todas as tabelas" para copiar todas de uma vez.

Raspando dados de um PDF

Se você deseja coletar dados de um PDF em uma planilha, o Tabula é outra ferramenta gratuita e fácil de usar. O Tabula trabalha com PDFs baseados em texto: a ferramenta não é compatível com documentos PDF que foram digitalizados. Vamos experimentar!

1) Baixe e instale o Tabula no seu computador. O link para download está disponível no site do Tabula. O software é compatível com PCs e Macs.

2) Quando você abrir o Tabula, verá o botão azul “Browse”. Clique neste botão para selecionar o arquivo PDF que deseja carregar do computador, o que deve levar de 20 a 30 segundos para ser concluído. O arquivo será adicionado à lista “PDFs importados” que você vê na imagem abaixo.

data scrape 3

3) O Tabula mostra uma prévia do PDF que você importou. Percorra as páginas para encontrar os dados que gostaria de raspar.

 data scrape 5

4) Clique e arraste seu cursor sobre a tabela da qual você deseja raspar. O Tabula irá destacar sua seleção em vermelho.

.data scrape 6

5) Clique no botão verde "Visualizar e exportar dados extraídos" na parte superior da página.data scrape 7

6) O Tabula mostra uma prévia dos dados selecionados. Selecione o formato de exportação CSV. CSV, que significa valores separados por vírgula, é um formato de arquivo comum e fácil de usar.data scrape 8

7) Clique em "Exportar" e o arquivo CSV será baixado para o seu computador.data scrape 9

8) Abra o arquivo e os dados estarão prontos e aguardando sua análise no Excel.data scrape 10

Raspar dados não precisa ser algo complexo ou intimidador e pode ser extremamente vantajoso para encontrar histórias ocultas que, de outra forma, poderiam passar despercebidas. O Table Capture e Tabula são ótimos para iniciates e têm mais a oferecer depois que você aprender o básico também. Então, fique à vontade para experimentar.

Boa raspagem!


Sanjit Oberai é um ex-bolsista Knight do ICFJ. Ele é baseado na Índia e trabalha com o PROTO.

Imagem principal sob licença CC no Markus Spiske