"The five Ws of data journalism" (As cinco perguntas básicas do jornalismo) foi tirado dos materiais de introdução ao jornalismo de dados, um curso MOOC realizado no início do ano. Você pode ler mais sobre o curso aqui.
Quem?
De onde vêm os dados? Por que isso importa? Esta pode ser a pergunta mais importante. Como os dados, como qualquer tipo de informação, podem estar errados, quanto menos confiável é a fonte, menos provável é que seja correto.Transparência sobre isso também é importante --se o seu leitor pode ver de onde os dados vieram, eles são mais propensos a acreditar em você. Se não acreditam em você, o que você está fazendo é inútil.
É importante porque boa parte do jornalismo de dados tem suas raízes em dados disponíveis publicamente -- em legislação de liberdade de informação ao redor do mundo, que permitiu o jornalista fazer matérias a partir de dados do governo escondidos.
Mas ter um portal de dados abertos não significa automaticamente que é um refúgio de liberdade - mesmo Bahrein e Arábia Saudita têm portais de dados abertos agora. É aí que os jornalistas de dados entram: expondo e questionando os dados, podemos testar o quão preciso são, combinando com outros conjuntos de dados para produzir resultados que indicam algo novo sobre a notícia.
Porque, tradicionalmente, os jornalistas tratam os dados com um tipo de confiança entusiástica que nunca dariam a uma fonte humana. Os números são confiáveis, porque investigá-los é muito assustador. Michael Blastland, ex-repórter da BBC, analisou o surto de norovírus de 2008 -- um vírus de inverno que faz vomitar--, mostrando exatamente como é fácil obter números errados. A história era que três milhões de pessoas tinham sofrido com a doença no ano anterior.
Ele olhou para os intervalos de confiança --um guia que mostra o quão confiável estes números eram-- e percebeu que o número poderia facilmente ser 280.000. Ou até mesmo 34 milhões. A verdade? Ninguém sabia, mas a matéria tinha sido escrita de qualquer maneira.
O quê?
O que você está tentando dizer? Quais são os pontos que você está tentando transmitir? Você não é um acadêmico pacientemente examinando cada argumento. O melhor jornalismo de dados conta a história de uma forma clara e que pode ser seguida facilmente, o que não é algo que acontece com todos os relatórios acadêmicos em qualquer assunto. Embora os relatórios estatísticos não sejam destinados ao público em geral, seu trabalho é. Seu trabalho significa editar a informação crua e torná-la compreensível.
Aqui está um exemplo: o Art Market for Dummies (Mercado de Artes para Burros) foi um vencedor nos prêmios de jornalismo de dados em 2013. Este projeto teve dados de várias fontes costurados em um todo para contar uma história. O projeto utilizou dados prontamente disponíveis no mercado de arte raspados a partir de um banco de dados chamado Artprice. Além disso, converteu arquivos de PDF em arquivo do Excel.
O autor também envolveu especialistas para ajudá-lo a traduzir o jargão e a linguagem das obras de arte. Ele teve que usar ferramentas como o Outwit, um Firefox Add-on para converter arquivos PDF em Excel; Open Refine para limpar e mesclar conjuntos de dados e o Conversor de Moedas Google API para valores monetários uniformes. D3.js e Hichcharts.js foram usados para visualizar os dados.
Foi o papel do autor em traduzir esses dados para todos que o fez um vencedor no prêmio de jornalismo de dados. Seu trabalho é fazer a ponte entre os dados e o usuário, o que significa dizer o quê.
Quando?
Quantos anos os seus dados têm? No momento em que você recebe um conjunto de dados oficial, é provável que tenha pelo menos um ano de idade, o que é um tempo distante no jornalismo rápido de últimas notícias e reação instantânea. Isso é uma das razões pelas quais os jornalistas de dados estão cada vez mais interessados em mais métodos atualizados de coleta de dados, ou seja:
Dados quase em tempo real, colhidos de feeds oficiais, como este mapa de homicídios de Chicago, com base nos últimos relatórios do crime imediatos da cidade. Reunidos em um mapa constantemente atualizado (que também permite que o usuário faça o download dos dados), esses dados fornecem uma fonte constante e contínuo de notícias para os jornalistas envolvidos, como esta matéria aqui, escrita depois de um período extraordinariamente grande de assassinatos em uma área da cidade.
Dados de mídia social recolhidos em tempo real a partir de serviços de redes sociais podem fornecer monitoramento instantâneo de últimas notícias, fontes para jornalistas e uma análise das atitudes em relação a um determinado evento. O site de notícias de negócios Quartz olhou tuites postados por @J_tsar, a conta de Twitter supostamente ligada ao autor dos ataques durante a maratona de Boston, Dzhokhar Tsarnaev, e revelou seus padrões de sono com base na hora de seus tuites.
Jornalismo Sensor: nova tecnologia barata pode criar dados imediatos para análise e reportagem. A equipe de dados WNYC produziu este projeto monitorando o surgimento de cigarras em toda a costa leste e incentivou seus usuários a ajudá-los no projeto de construção de seus próprios sensores baratos. Este é realmente um novo tipo de jornalismo de dados: o jornalismo sensor e a equipe de John Keefe foram os pioneiros, mostrando como isso pode ser feito por qualquer pessoa. Você pode ler mais sobre o trabalho aqui.
Reportagens com a colaboração do público (por crowdsource) após um grande evento: o poder dos leitores pode ser aproveitado para produzir dados reais imediatos que podem então ser usados para geração de reportagens. Você precisa de um público ativo que se preocupa e quer se envolver com a história: os dados brutos que recolhem podem produzir reportagens. Não é caro. Veja como você pode fazer crowdsourcing, com base em ferramentas gratuitas simples seguindo alguns passos:
- Um formulário do Google embutido em uma página para reunir respostas dos leitores
- Estes dados editados por jornalistas para compensar dados repetidos ou ofensivos
- Dados importados em Google Fusion Tables
- Estes dados alimentando um mapa que é atualizado toda vez que é recarregado
Há muitos perigos - especialmente se as respostas forem auto-selecionadas, mas confira o trabalho de Zooniverse, especializado em crowdsourcing baseado em uma comunidade pequena, mas ativa.
Onde?
A geolocalização de dados é uma questão de importância vital. Uma parte fundamental do jornalismo de dados é a capacidade de combinar conjuntos de dados diferentes para criar uma nova história. Assim, este mapa das taxas de homicídios de arma e posse de armas só é possível por causa de fronteiras idênticas - neste caso a nível de país. Quanto mais local as fronteiras geográficas são, mais difícil é criar mapas a nível local que podem ser combinados. Esta é a maldição dos dados públicos abertos produzidos em diferentes níveis de governo. Assim, conhecer a natureza da geografia é extremamente importante e também permite criar novos tipos de histórias.
Por quê?
Este é o mais difícil conjunto de questões para o jornalismo de dados responder. É muito bom para mostrar o que está acontecendo, menos bom para correlacionar esses dados para produzir uma análise de causa e efeito. Ou seja, só porque um país tem taxas mais altas de posse de armas e de homicídio de arma não significa que um definitivamente causa o outro, não importa o quão óbvio pareça. O jornalismo de dados muitas vezes contém as mais simples perguntas jornalísticas:
- Qual é o tamanho de algo?
- Está aumentando ou diminuindo?
- Como se compara a outra coisa/em outro lugar?
Às vezes, o jornalismo de dados produz matérias impossivelmente grandes que usam análise estatística sofisticada para criar grandes reportagens. Mas estas são técnicas muito avançadas e muito raras. Muitas vezes, essas matérias são feitas em colaboração com especialistas, o que é outra grande diferença do jornalismo padrão que utiliza fontes e documentos.
Pirâmide invertida
Paul Bradshaw desenvolveu uma pirâmide invertida do jornalismo de dados (cursos de jornalismo em todo o mundo falam sobre a pirâmide invertida do jornalismo) que explica claramente como funciona o processo. Você pode ler mais sobre a pirâmide aqui (em inglês).
Fundamentalmente, Bradshaw escreve que:
O jornalismo de dados começa em uma de duas maneiras: você tem uma pergunta que precisa de dados, ou um conjunto de dados que precisa de questionamento. Seja qual for, a compilação dos dados é o que define o ato do jornalismo de dados.
Esse ponto é crucial. Há algo referente ao que você está fazendo que o torna diferente da simples publicação de dados: é a ideia por trás deste processo editorial, a ideia de que você vai contar uma história aqui.
Eu adoraria saber o que está faltando nessa lista: o que você acrescentaria?
Este artigo foi escrito originalmente no blog de Simon Rogers e é reproduzido na IJNet com permissão.
Imagem principal sob licença CC no Flickr via Ian - imagem secundária cortesia de Paul Bradshaw