Como jornalistas podem encontrar, extrair e utilizar dados abertos

por Juan Manuel Casanueva
Mar 3, 2015 em Jornalismo de dados

Desde que a informação tornou-se disponível pela Internet, os defensores da transparência pedem por formatos públicos de dados abertos. Grupos como ILDA na América Latina e o grupo internacional de trabalho OGP de Dados Abertos se esforçam não só para pesquisar e analisar a abertura dos dados públicos, mas também avaliar como infomediários estão usando dados abertos.

Jornalistas, hackers cívicos, universidades e organizações da sociedade civil são alguns dos usuários mais ativos de dados abertos, transformando dados em informação consumível para o público. Repórteres da América Latina têm sido especialmente criativos para alcançar diferentes fontes de dados para suas pesquisas e reportagens, mas porque o movimento de dados abertos é relativamente novo na região, encontrar conjuntos de dados limpos, utilizáveis ​​e disponíveis ainda pode ser um desafio.

Como um bolsista Knight do ICFJ e co-promotor da Escuela de Datos e comunidades de dados abertos na América Latina, estou em contato direto com as necessidades e os truques que os jornalistas tendem a enfrentar durante a pesquisa e utilização de dados. Liderei um workshop sobre este tema na Media Party Miami, um evento de dois dias, na Flórida, que reuniu jornalistas, hackers, acadêmicos e estudantes investidos na inovação da mídia em todos os Estados Unidos e América Latina. A organização foi do bolsista Knight do ICFJ Mariano Blejman. Aqui vai um resumo:

Onde estão os dados?

- Muito poucos países e cidades da América Latina têm portais de dados abertos (veja Chile e Buenos Aires como referências regionais). Portanto, ao contrário dos Estados Unidos ou alguns países europeus, quem precisa de dados abertos tem que pesquisar cuidadosamente portais da sociedade civil ou sites governamentais incipientes. Contudo, em alguns países como o Mexico ou Peru, jornalistas, hackers cívicos e organizações da sociedade civil liberaram muitos dos dados e disponibilizaram a informação em portais de cidadão.

- O movimento de dados abertos provou que os dados estão em toda parte e esforços em equipe podem liberar dados fundamentais para as cidades ou países. Então, se os dados estão disponíveis, mas não foram abertos, os jornalistas podem sempre seguir o modelo do projeto colaborativo Voz Data do jornal La Nación como um guia.

- Mas lembre-se que estamos vivendo na era da informação, deste modo, reunir informações está se tornando mais fácil a cada dia com o uso de aplicativos móveis, wearables e programas de coleta de dados a partir de uma ampla variedade de fontes, que vão desde os sinais vitais de uma pessoa a streams das redes sociais.

Como posso extrair e limpar dados?

- Se os dados estão disponíveis, muito provavelmente vão estar em formatos fechados ou semi-fechados, como PDF. Nesses casos, é muito importante que os jornalistas desenvolvam capacidades de raspagem e se tornem mais experientes usando ferramentas diferentes para importar dados de sites, PDFs e documentos digitalizados. Uma lista de tutoriais e ferramentas está disponível no schoolofdata.org.

- Limpar e padronizar dados é outra capacidade básica que jornalistas precisam. Ferramentas como OpenRefine ou mesmo o uso inteligente de planilhas podem permitir que você remova dados duplicados, junte variáveis ​​e combine conjuntos de dados.

Como posso usar dados abertos?

- Os dados são utilizados principalmente para análise, mas a abordagem de análise de dados pode variar. Por exemplo, os usuários mais narrativos tendem a provar uma hipótese (geralmente uma notícia ou reportagem principal) através da análise dos dados. Esta abordagem pode ser muito eficaz se o panorama de um jornalista sobre os dados é exato e há grande probabilidade de que ele ou ela vá encontrar as respostas que precisam no conjunto de dados. Por outro lado, mais usuários analíticos (codificadores ou cientistas de dados) têm uma abordagem mais agnóstica sobre os dados. Eles irão analisar todas as variáveis e constantemente determinar e comprovar hipóteses que os próprios dados vão mostrar.

- A análise dos dados pode ser um desafio, mas desafios de processamento e investigação serão muito melhor abordados se há uma equipe que combina narradores e técnicos. Você pode ver um produto da colaboração de equipe nesta reportagem do jornal La Nación.

- Nem todos os jornalistas latino-americanos concordam sobre como os dados devem ser usados ​​em contar histórias. Mas, sem entrar num debate sobre visualização de dados, uma abordagem que tem sido útil para alguns jornalistas é ver os dados como uma fonte para argumentos e marcos de uma reportagem. Muitas das conclusões que os dados trazem devem ser utilizadas para reforçar as peças-chave da reportagem, ao invés de ditar a história.

Imagem sob licença CC cortesia de Stockmonkeys.com