¿Trabajas con datos? Algunas claves para verificar tus fuentes y números

Aug 30, 2021 en Periodismo de datos
Dominoes

El año 2020 no solo estuvo dominado por la pandemia. También fue el año de los datos abiertos.

Numerosas organizaciones ligadas a la salud publicaron actualizaciones diarias y en tiempo real sobre la propagación del virus en todo el mundo, poniendo en circulación una cantidad de cifras y números sin precedentes. El reto para los periodistas ha sido analizar esa información con precisión y comunicar sus conclusiones al público de manera eficaz.

Es imprescindible que comprendamos los datos con los que trabajamos. Aunque en el ciclo de noticias ininterrumpido de nuestros días suele haber prisa por publicar, hacerlo de forma inexacta hace más mal que bien. Durante una crisis como la del COVID-19, los datos pueden ayudar a sensibilizar al público. Pero si se manejan mal, pueden ponerlo en mayor riesgo.

Analiza siempre las cifras con un sano escepticismo. Como periodistas, debemos investigar cuándo y de dónde proceden los datos que utilizamos. Debemos determinar quién reunió y publicó originalmente las cifras, así como qué financiadores  las respaldan.

Los periodistas también debemos corregir los valores ilógicos o ausentes, y limpiar las cifras mal etiquetadas. Estos errores pueden producirse durante el proceso de introducción de datos, ya sea de forma manual o automática.

[Lee más: Cómo evitar errores comunes en visualizaciones de datos]

 

El Ministerio de Salud jordano, por ejemplo, solía introducir manualmente algunos resultados de las pruebas de COVID-19 que no se cargaban automáticamente en la base de datos del gobierno. A medida que aumentaba el número de casos diarios, se perdían los resultados y se cometían errores relacionados con los nombres y sus muestras, según declaró a los medios locales el ex ministro Saad Jaber.

También hay que tener en cuenta que, aunque se utilice un software fiable como Microsoft Excel, el error humano puede colarse. Ocurrió, por ejemplo, en el Reino Unido el año pasado: 16.000 registros de pacientes con COVID-19 se borraron accidentalmente de una base de datos oficial, lo que dio lugar a la difusión de información inexacta que obstaculizó determinados esfuerzos, como el rastreo de contactos.

Para evitar la publicación de datos inexactos, busca fuentes creíbles y verifica las cifras. A continuación, los puntos que no te deben faltar:

Transparencia

Busca fuentes que expliquen cómo reúnen y documentan los datos. Esto incluye la tecnología y los algoritmos que han utilizado durante el proceso. Cuanto más transparentes sean los proveedores de datos, más posibilidades de precisión habrá.

Para ello, debes entender cómo la fuente recopila los datos a los que haces referencia. Esto te permitirá analizar y verificar mejor las cifras antes de incluirlas en tu trabajo.

[Lee más: Buscar datos y verificar voces expertas; claves para un buen periodismo de salud]

Metodología

No publiques un conjunto de datos sin adjuntar el correspondiente archivo de metadatos, que ayuda a explicar cómo se han reunido los mismos. También puedes incluir información sobre el tamaño de la muestra, el margen de error y los valores que faltan, e incluye un glosario de términos y abreviaturas. Sin esos detalles, es como darle a una persona un cofre de oro, pero sin las llaves para abrirlo.

En Italia, por ejemplo, los periodistas cuestionaron la credibilidad de los datos oficiales del gobierno en torno al COVID-19 tras encontrar fallos en las cifras presentadas al público. Esto puede atribuirse a una serie de factores, entre ellos, que el gobierno cambió sus políticas de testeo varias veces en 2020, y que las metodologías para rastrear los casos del virus diferían según la región. Esto contribuyó a que los datos fueran inconsistentes y deficientes en general. Si se hubiera dispuesto de un archivo de metadatos, los errores podrían haberse identificado más fácilmente.

Contexto

El contexto es clave a la hora de analizar datos. Por ejemplo, ten en cuenta cómo se presenta la información sobre el total de infecciones y las tasas de infección. Cuando una autoridad gubernamental presenta datos regionales sobre el número de personas infectadas con COVID-19, es posible que una gran ciudad muestre el valor más alto. Pero eso no significa necesariamente que sus tasas de infección sean las más altas; puede ser simplemente el resultado de ser la zona más poblada.

La forma más adecuada de comparar las cifras en lugares con poblaciones diferentes es calcular las tasas de infección por cada 100 personas. Eso demostrará con mayor precisión la propagación del virus.

Comprender los datos

No empieces a trabajar con una base de datos si no entiendes lo que tienes ante ti. Antes, hazte las siguientes preguntas:

  • ¿Qué indican los datos?
  • ¿Entiendo todos los términos y definiciones incluidos en los datos?
  • ¿Qué es lo que no se incluye en los datos que podría aportar un contexto?
  • ¿Cuáles son las unidades de medida?
  • ¿Puedo cotejar los datos con otra fuente para corroborar los valores?

Verificar los datos requiere investigación y análisis. Afortunadamente, los periodistas no necesitan ser expertos para ello. Los valores periodísticos, las habilidades y el instinto son métodos eficaces para chequear los números. La verificación manual puede ser incluso más eficaz que los algoritmos de verificación automática. Aunque la tecnología no siempre puede determinar la credibilidad de los datos, puede ofrecer herramientas y orientaciones útiles para ayudar a los periodistas.

En todo momento, haz preguntas, conserva el escepticismo y revisa y cruza tus números en la medida de lo posible. El siguiente diagrama muestra los pasos que sigo cuando trato con números en una base de datos. Puede ayudarte a construir tu propia estrategia de verificación.

 

Data verification workflow diagram

Foto de Mick Haupt en Unsplash.