Depois de meses de telefonemas, e-mails e muita paciência, você finalmente obteve o conjunto de dados de uma agência governamental.
Antes de sonhar sobre como vai ganhar um prêmio Pulitzer com as matérias incríveis que irá escrever, você percebe que o conjunto de dados é confuso e difícil de entender.
O Google Refine permite limpar os dados para que você possa começar a trabalhar neles e tirar conclusões.
Primeiro você precisa fazer o download do Google Refine. Como explicado neste tutorial, apesar de você usá-lo através de seu navegador, o Refine é um aplicativo do desktop. Isto significa que você não tem que se preocupar em carregar dados sensíveis na Internet. O programa é compatível com Windows, Mac e Linux e, o melhor de tudo, é gratuito.
Depois de dar um nome ao seu projeto e clicar no botão "create project" (criar projeto), você verá os dados exibidos no Google Refine.
Agora você está pronto para começar a trabalhar no seu projeto. No entanto, verá no seu conjunto de dados que a informação pode ser formatado de forma diferente. Assim, por exemplo, uma data pode ser inserido de diversas maneiras: 6 de outubro de 2011, 2011/10/06, etc. Isso também pode acontecer com números e campos de texto.
O problema é que se fizer buscas para encontrar padrões nos dados e as informações não estão formatadas da mesma forma, o resultado vai deixar dados de fora, o que o torna não confiável, impossibilitando seu uso na matéria.
Você pode corrigir isso usando o recurso de texto ou número no Google Refine, que combina células idênticas e mostra quantas vezes eles se repetem. Por exemplo, pode mostrar quantos campos são inseridos como RJ e quantos como Rio de Janeiro. (Você pode aprender mais sobre esse recurso neste vídeo tutorial). Isso ajudará você a descobrir se há campos que podem se referir à mesma coisa, mas são inseridos com nomes diferentes. Por exemplo, neste conjunto de dados alterados sobre a assistência econômica dos Estados Unidos ao redor do mundo, os dados referentes aos Camarões é inserido de duas maneiras diferentes. Você também pode editar os nomes dos campos para resolver o problema.
Outra característica interessante relacionada é o "agrupamento", que tenta encontrar grupos de valores diferentes de células que podem se referir à mesma coisa. Você pode ler mais sobre o agrupamento e como ele funciona aqui.
O Google Refine também lhe dá a possibilidade de eliminar os espaços em branco para tornar os dados mais uniformes. Você pode não perceber se um nome tem um espaço em branco extra, mas ele vai ser problemático na hora de analisar os dados. Elimine isso usando a opção "trim leading and trailing white space" (remova o espaço em branco à direita e à esquerda), como explica este guia criado por Paul Bradshaw.
Além disso, se você cometer erros em suas edições, pode desfazê-los facilmente. O Google Refine faixas cada mudança que você fez para seu conjunto de dados por isso é fácil mudá-lo de volta.
Você pode baixar o Refine aqui e ler vários tutoriais que ensinam a usar o recurso. O Google Refine também inclui uma amostra de dados para quem quer experimentar o programa.
Há também um guia muito útil sobre como o ProPublica usou o Google Refine em seu artigo vencedor do Prêmio Pulitzer e você pode conferir o guia do Bradshaw aqui.