Big data é para máquinas: Como usar pequenos conjuntos de dados para matérias impactantes

porJuan Pablo Marín Díaz
Feb 18, 2018 em Jornalismo de dados

Há uma grande expectativa em torno do "big data" (enorme quantidade de dados) em todas as indústrias e o jornalismo não é uma exceção. A investigação "Panama Papers" e o prêmio Pulitzer subsequente atribuído à equipe por trás do projeto foram um marco que comprovou que a tecnologia, colaboração e dados podem criar reportagens impactantes.

No Datasketch, estamos ajudando jornalistas a entender dados, fornecendo-lhes ferramentas fáceis de usar para que possam melhorar sua reportagem baseada em dados.

Um dos primeiros desafios a abordar é a desmistificação dos grandes dados e o que isso significa no contexto das investigações baseadas em dados.

No caso específico dos "Panama Papers", a quantidade total de dados vazados foi de cerca de 2,6 terabytes (TB). No entanto, apenas 22 megabytes (MB) chegaram ao banco de dados final que foi usado na maioria das publicações.

Para colocar isso em perspectiva, imaginemos que 1MB vale um centavo; 1 TB seria o equivalente a US$10.000. Portanto, dos US$26.000 de informações disponíveis, apenas 22 centavos foram publicados no banco de dados. Isso significa que muita informação não foi usada.

Descobrir verdades exige reunir várias fontes de informação e organizá-las em pequenos pedaços que compõem uma matéria. Para qualquer artigo baseado em dados, cada fonte pode ser um caminho para explorar uma história única. É por isso que, embora o jornalismo realmente tenha se beneficiado de ferramentas de análise de dados importantes, ainda é bastante difícil usar a tecnologia para respaldar o jornalismo de dados escalável.

O advento do dados grandes pequenos

Que tamanho tem o big data? Depende de quem você perguntar. Alguns dizem que os dados são grandes se o tamanho for maior que 1TB (o equivalente a 2 milhões de fotos).

Eu prefiro usar outra regra de ouro: "Big data é algo que não se encaixa em uma planilha."

Como observado acima, mesmo em um projeto tão grande como "Panama Papers", os dados finais, que foram usados para construir as matérias, eram coleções de arquivos de dados pequenos. Os seres humanos precisam digerir informações que sejam acessíveis, agregadas e informativas. Não importa o quão grande é a sua matéria de jornalismo de dados, é provável que você use vários conjuntos de dados pequenos.

Não nos enganemos: os grandes dados são para as máquinas. Ao invés de se concentrar em grandes conjuntos de dados, precisamos nos concentrar em se tornar mestres do uso de pequenos conjuntos de dados no jornalismo. Imagine um par de planilhas com no máximo umas 2.000 linhas de informações agregadas.

Muitos jornalistas ainda carecem de uma maneira fácil de coletar e encontrar pequenos conjuntos de dados, bem como uma maneira de explorá-los e combiná-los em reportagens.

Reunindo pequenos conjuntos de dados

Um dos meus lugares favoritos para encontrar pequenos conjuntos de dados é o data.world. Eles usam tecnologias e comunidades semânticas online para abrir conjuntos de dados em diferentes formatos, juntamente com ferramentas visuais para analisá-los. Statista é outro site que coleta milhões de estatísticas sobre diferentes projetos e é particularmente útil para visualizar tendências de mercado e de negócios.

Uma maneira inovadora de melhorar a coleta de conjuntos de dados pequenos é observar os dados de curadoria de cidadãos. Esta pequena informação reunida por cidadãos é muito poderosa não só como fonte de dados, mas também como forma de engajar com os leitores e encontrar tópicos interessantes para as matérias. Há um número cada vez maior de cidadãos que estão usando as redes sociais para publicar dados factuais sobre diferentes tópicos que os interessam.

Combinando pequenos conjuntos de dados

Em termos de combinação de pequenos conjuntos de dados em matérias, a melhor maneira seria usar ferramentas de visualização de dados como datawrapper ou flourish. Outra ferramenta inicialmente concebida para cientistas compartilharem dados e gráficos é Figshare, que agora contém muitas informações úteis para qualquer pesquisador.

Fique à vontade para explorar mais recursos de jornalismo de dados em nosso portal de jornalismo de dados para a América Latina: Datasketch.

Usando dados pequenos para matérias impactantes

Dominar o uso de dados pode abrir portas para formas novas e inovadoras de jornalismo que criam resultados tangíveis. No ano passado, jornalistas do Datasketch se conectaram com um usuário do Twitter que estava coletando informações sobre feminicídios, o que levou a uma reportagem sobre a violência contra as mulheres na Colômbia.

Juntos, construímos o banco de dados mais completo sobre feminicídios na Colômbia usando diferentes fontes, como pedidos de liberdade de informação através da nossa plataforma QueremosDatos, conjuntos de dados customizados, pesquisas online e mais.

O resultado ajudou a moldar a reportagem final, para a qual fizemos mais de 30 pequenos conjuntos de dados disponíveis online. Este trabalho não só contou uma história da violência, mas também ajudou a dar uma alternativa de mudança ao pressionar o governo colombiano a agir sobre a questão com uma intervenção física que fizemos com os dados coletados sobre feminicídios.

Imagem sob licença CC no Pexels via Kevin Ku