Como pesquisar na Web profunda: Extração de dados

por Sandra Crucianelli
Jun 12, 2012 em Diversos

Saber como localizar dados está se tornando uma habilidade cada vez mais valiosa no jornalismo.

Na primeira parte desta série, aprendemos a pesquisar na Web profunda através de pesquisas avançadas. Aqui, você encontrará técnicas e ferramentas de pesquisa e recuperação de dados.

Extração de dados

O exemplo mais simples de recuperação de dados é extrair o conteúdo de uma tabela de um arquivo PDF e importá-lo para uma planilha Excel. Há um monte de opções pagas para isso, mas você também pode tentar conversores como o Zamzar.com, que é gratuito e não requer inscrição.

Lembre-se que tabelas e gráficos são muitas vezes carregados na Web em formato de imagem, portanto a sua caça de dados deve incluir pesquisas em plataformas como o Flickr ou Google Imagens. Um software de reconhecimento óptico de caracteres é uma grande ajuda; um simples e gratuito é o Free Ocr.

• Outras ferramentas do Google:

  1. Dê uma olhada no Explorador de Dados Públicos do Google.

  2. Do mesmo modo, o Google Livros e Google Blogues contêm informações úteis, permitindo que você filtre os resultados por data. Exemplo: Este post publicado no SoloLocal foi baseado em uma pesquisa no Google Livros, usando posicionamento geográfico e a seleção de uma linha do tempo: a pesquisa incluiu livros publicados nos últimos três anos.

• Experimente recursos semânticos online, como o Wolfram|Alpha.

• Busque em recursos acadêmicos, como o Google Acadêmico, Scirus e Scielo.

• Use a versão gratuita do Copernic. Esta poderosa ferramenta de pesquisa permite que você defina buscas por categorias, como "documentos do governo dos EUA". (Atenção: Só funciona no Windows).

• Pesquise dados sobre o seu país fora do seu país. Por exemplo, dados do banco de dados do Censo dos Estados Unidos contém informações atualizadas sobre as importações americanas de todo o mundo. (Essa lista de países está um pouco escondida, mas você pode encontrá-la aqui. Os dados cobrem de 2002 a 2011, permitindo que você estude variáveis ​​ao longo do tempo e compare países.

• Recupere dados que possam ter sido excluídos da versão Web, mas ficaram "em cache" ou salvos como imagens. Experimente o Arquivo da Internet e seu recurso “Wayback Machine."

• Analisar o índice do diretório parente ou um site. Por exemplo, este link http://www.justiciachaco.gov.ar/listas/C_A_Civ_y_Com_Sala_II_Pro/Cam_Civ_Sala_II_Pro_2009-11-13.Txt pode virar este: http://www.justiciachaco.gov.ar/listas/.

• Encontre bancos de dados interessantes usando o Incywincy, um motor de metabusca que mostra resultados da "Web Profunda". Uma lista de exemplos de bancos de dados está aqui.

• Monitore redes sociais (documentos partilhados, comentários) usando ferramentas como o SocialMention, 48ers ou pesquise o Twitter em tempo real usando twitterfall, que permite que você faça uma pesquisa geo-referenciada ou procure pelo nome (estas duas opções são mais específicas) ou assunto (menos específico).

Esse artigo é o segundo e último de uma série com dicas para encontrar informações na Internet.

Sandra Crucianelli é bolsista do Knight International Journalism Fellowship, uma jornalista investigativa e instrutora, com especialização em recursos digitais e jornalismo de dados. Ela é fundadora e editora da Sololocal.info, uma revista online que fornece notícias hiperlocais de Bahía Blanca, Argentina.

Imagem usada com licença CC via altemark in Flickr.