Você trabalha com dados? Saiba como checar fontes e números

Sep 1, 2021 em Jornalismo de dados
dominós alinhados

O ano de 2020 não foi dominado apenas pela pandemia. Foi também um ano de dados abertos.

Muitas organizações relacionadas à saúde publicaram atualizações diárias e em tempo real sobre a disseminação do vírus pelo mundo, fazendo circular uma quantidade de números e dados sem precedentes. O desafio dos jornalistas tem sido analisar essa informação de forma precisa e comunicar suas descobertas ao público com eficácia.

É imperativo que jornalistas primeiramente entendam os dados com os quais estão trabalhando. Embora exista frequentemente pressa para publicar no atual ciclo imparável de notícias, fazer isso de forma imprecisa faz mais mal do que bem. Em uma crise como a da COVID-19, os dados podem ajudar a conscientizar de forma crítica o público. Mas se eles não forem bem manejados, podem colocar as pessoas em sério risco.

Sempre analise os dados com ceticismo saudável. Como jornalistas, devemos investigar quando e onde foram gerados os dados que usamos. Devemos identificar quem originalmente publicou e coletou os dados, assim como os financiadores por trás deles.

Jornalistas também devem corrigir dados faltantes ou com valores ilógicos e limpar dados que estejam rotulados incorretamente. Esses erros podem ocorrer durante o processo de inserção dos dados, seja ele manual ou automático.

 

[Leia mais: Como evitar erros comuns de visualização de dados]

 

O Ministério da Saúde da Jordânia, por exemplo, costumava inserir manualmente alguns resultados de testes de COVID-19 que não eram carregados automaticamente na base de dados do governo. À medida que o número de casos diários foi crescendo, os resultados se perderam e houve erros relacionados aos nomes e às amostras, disse à imprensa local o ex-ministro da saúde jordaniano Saad Jaber.

Tenha em mente também que mesmo usando softwares confiáveis, como o Excel, o erro humano pode passar despercebido. Considere, por exemplo, o incidente ocorrido no Reino Unido no ano passado: 16 mil registros de pacientes com COVID-19 foram deletados acidentalmente de um banco de dados oficial, resultando na disseminação de dados imprecisos que comprometeram esforços como o rastreamento de contatos para combater o vírus. 

Para evitar a publicação de dados imprecisos, conte com fontes que tenham credibilidade e cheque os seus números. A checklist abaixo pode ajudar:   

Transparência

Busque fontes que sejam transparentes sobre como os dados são compilados e documentados. Isso inclui a tecnologia e os algoritmos usados no processo. Quanto mais transparentes os fornecedores de dados forem, maior o potencial de precisão.

Para fazer essa verificação, certifique-se de que você entende como os dados estão sendo coletados pela fonte que você está usando como referência. Isso vai te permitir analisar e verificar melhor os números antes de incluí-los em suas matérias.

 

[Leia mais: Reportagem de saúde envolve buscar dados e verificar afirmações de especialistas]

 

Metodologia

Não publique um banco de dados sem anexar o arquivo de metadados correspondente, que ajuda a explicar como os dados foram coletados. Ele pode incluir também informação sobre tamanho da amostra, margem de erro, valores ausentes e também inclui um glossário de termos e abreviações. Sem esses detalhes, é como se você fosse uma pessoa que descobriu um baú do tesouro com ouro, mas não tem a chave para abri-lo.

Na Itália, por exemplo, jornalistas questionaram a credibilidade de dados oficiais do governo relacionados à COVID-19 depois de encontrarem falhas nos números apresentados ao público. Isso pode ter sido causado por uma variedade de fatores, dentre eles o fato de que o governo mudou sua política de testes várias vezes em 2020 e as diferenças nas metodologias de rastreamento de casos conforme a região. Isso contribuiu para a inconsistência dos dados no geral. Se um arquivo de metadados tivesse sido disponibilizado, esses erros poderiam ter sido identificados mais facilmente.

Contexto

Contexto é fundamental quando se está analisando dados. Por exemplo, considere como você apresenta a informação sobre infecções totais e taxas de infecção. Quando uma autoridade governamental apresenta dados regionais sobre o número de pessoas infectadas com a COVID-19, uma cidade grande pode ter o valor mais alto. Mas isso não significa necessariamente que suas taxas de infecção são as mais altas — pode ser apenas uma consequência por ser a área mais populosa.

O jeito mais apropriado de comparar números em locais com populações diferentes é calcular as taxas de infecção por 100 habitantes. Isso vai demonstrar com mais precisão a disseminação do vírus.

Entenda os dados

Não comece a trabalhar com bancos de dados a não ser que você entenda o que eles contêm. Para fazer isso, pergunte-se as seguintes questões:

  • O que os dados indicam?
  • Eu entendo todos os termos e definições presentes nos dados?
  • O que não está incluído nos dados que poderiam dar contexto?
  • Quais são as unidades de medida?
  • Eu poderia cruzar os dados com uma fonte diferente para corroborar os valores?

Verificar os dados requer investigação e análise. Felizmente, jornalistas não precisam ser especialistas em análise de dados para fazer isso. As habilidades, o instinto e os valores do jornalismo são todos métodos eficientes para auxiliar na checagem de dados. A verificação manual pode ser ainda mais eficaz do que a verificação automática com algoritmos. Mas ainda que a tecnologia nem sempre seja capaz de determinar a credibilidade dos dados, ela pode ajudar com ferramentas úteis e orientação.

Sempre faça perguntas, desconfie, examine e cruze seus números o máximo possível. O diagrama abaixo mostra os passos que eu sigo quando lido com números em um banco de dados. Ele pode te ajudar a construir a sua própria estratégia de verificação. 

Dados brutos --> Os dados têm um arquivo de metadados? Você entende todos os indicadores?

Sim --> Dados com credibilidade 

Não --> É possível contatar a fonte dos dados para obter mais informação?  

Não --> Dados sem credibilidade

 

Ou

 

Pegue uma amostra, faça uma limpeza e tratamento dos dados --> O processo de limpeza correu bem?

Não --> Dados sem credibilidade

Sim --> Dados com credibilidade

 

Data verification workflow diagram

Foto por Mick Haput no Unsplash.