Icfj 的一个项目

هل ينبغي أن نثق في البيانات؟

作者 Amr Eleraqi
Jun 9, 2021 发表在 صحافة البيانات
صورة

سُمي عام 2020 بعام الجائحة، كما سُمي بعام البيانات مفتوحة المصدر، في ظل تسابق العديد من المنظمات والهيئات العالمية المهتمة بشؤون الصحة بنشر بيانات يومية ولحظية عن تطور انتشار فيروس "كورونا" في شتى بقاع العالم، مما سمح بتدفق كم هائل من البيانات مفتوحة المصدر لم نعتَد عليها من قبل كصحفيين، فبالكاد كنا نحصل على ما نبحث عنه من معلومات من مصادرها الأولية بشق الأنفس لكننا اليوم أمام فيض غزير من البيانات المتدفقة بدون توقف وبمدى جغرافي واسع.

وقام الكثير من الصحفيين بنشر حزم البيانات التي تصلهم عبر النشرات البريدية أو تلك التي تطالها أيديهم من المواقع الإلكترونية لجهات بحثية وأكاديمية، من دون تحقق أو تدقيق مما أوقع الكثيرين في أخطاء نشر كتلك التي وقعت فيها إحدى الصحف الإنجليزية حين نشرت عن أعداد المصابين بفيروس كورونا في مصر خلال الأسابيع الأولى من انتشار المرض عالميًا وكانت أكبر بكثير من الأرقام الحكومية، لكنها في واقع الأمر كانت أرقام لدراسة أكاديمية مستقبلية تتوقع ما سوف تصل إليه الأعداد في المستقبل. ويعدّ خطأ فادحًا غياب الإشارة إلى أنّ هذه الأعداد جاءت نتيجة دراسة أكاديمية تتوقع المستقبل من متن المادة الصحفية، كذلك من الخطأ الاشارة إليها من دون عرض منهجية الدراسة وكيفية وصول الباحثين لتلك النتائج. 

والجدير ذكره أنّ البعض يتحمّس لنشر ما يصلهم، محاولين الوصول إلى سبق صحفي في وقت بات فيه السبق أقل أهمية من دقة المعلومات المتداولة، وقد يقع البعض في خطأ أشد خطورة حين ينشرون بيانات لمؤشرات هم لا يدركون معناها جيدًا، فكيف يمكن أن تنقل للقارئ ما لديك من معرفة وأنت تجهلها بالأساس، فوظيفة الصحافة هي التنقيب وكشف المستور وإيضاح غير المعلوم لعموم الناس.

إقرأوا أيضًا: تصميم البيانات.. ما هو؟ وما الأخطاء الشائعة؟

يُقال إنّ الشك عقيدة العمل الصحفي، وفي حالة أزمة مثل التي نعيشها، يمكن أن تكون البيانات أداة لتوعية الجمهور أو تعريضهم للخطر، علينا الآن أن نكون في ذروة الشك، لأن الأخطاء دائما ما تحدث – عن قصد أو من دون قصد – ولا ينبغي أن نكتفي بممارستنا الأساسية في تقصي هوية مصدر البيانات، لمعرفة من هو ومتى تأسس ومن يموله وما هو الغرض من جمع هذه البيانات ونشرها وكل هذه الأسئلة الأساسية حول هوية المصدر، لكن علينا أيضًا أن نتقصى سجلات البيانات للتأكد من خلوها من أي قيم غير منطقية أو أخطاء لغوية أو قيم مفقودة، فجميعها أخطاء تقع أثناء عملية إدخال البيانات سواء تمت هذه العملية بشكل يدوي أو بواسطة الحاسوب، فالبشر معرضون للخطأ دومًا والآلة معرضة للخطأ أحيانًا.

وإذا كنت من الأشخاص الذين لا يؤمنون بأخطاء الآلة، دعني أشارك معك هذه الواقعة التي حدثت في إنجلترا بين 25 سبتمبر/أيلول و2 أكتوبر/تشرين الأول 2020، حيث حذفت المملكة المتحدة عن غير قصد ما يقرب من 16000 سجل من سجلات المصابين بفيروس كورونا من قاعدة بيانات رسمية، مما أدى إلى انتشار بيانات غير دقيقة بشكل كبير. المسؤول عن هذا الخطأ، وفقًا لـوكالة الصحة العامّة، وهي هيئة حكومية تابعة لوزارة الصحة والرعاية الاجتماعية في المملكة المتحدة، والتي تجمع البيانات من المختبرات العامة والخاصة، لم يكن بشريًا، بل كان برنامج مايكروسوفت إكسيل.

اقرأ بعناية وثق بحذر

الاعتماد على مصادر جديرة بالثقة هو دائمًا حل أمثل لتفادي الوقوع في خطأ نشر البيانات غير الدقيقة، لكنه الآن ضرورة مطلقة. إليك بعض النقاط التي ينبغي التأكد من توافرها في أي مصدر بيانات قبل أن تشرع في نشر ما ينتجه من بيانات.

الشفافية: ابحث عن المصادر التي لا تخفي أسرارها في جمع وتوثيق البيانات وتفصح عن كل شيء، عن كيفية جمع البيانات وعن التكنولوجيا التي استخدمت في جمعها وأرشفتها وكذلك الخوارزميات التي اتبعت في معالجتها. كلما زاد شفافية مقدمي البيانات فيما يتعلق بتمثيل بياناتهم أو طرق تحليلها، زادت فرص التدقيق لها، فهؤلاء هم شركاء المعرفة الأكثر أمانًا.

على سبيل المثال، كان الأردن يتبع طريقة الادخال اليدوي لنتائج الفحص، حيث لا تظهر النتائج تلقائيا على الحاسوب بل لا بد من قراءتها من قبل خبير مختص، ثم يقوم مدخل البيانات بإدخالها في قاعدة البيانات، وعند زيادة أعداد الإصابات اليومية فٌقدت الكثير من النتائج وحدثت أخطاء بين الأسماء وعيناتها، بحسب تصريحات وزير الصحة الأردني سعد جابر لوسائل إعلامية محلية. قد يساعد وضوح خطوات عملية جميع البيانات الصحفيين في مراجعة البيانات وتدقيقها وتصحيح مسارها ووقف تداولها على نطاق واسع حتى التحقق منها.

المنهجية: لا تنشر بيانات تصل إليك من دون أن يرفق معها ملف "البيانات التوصيفية" أو ما يطلق عليه بالإنجليزية Metadata وهو ملف يتضمن قدرًا وافيًا من الشرح حول منهجية جمع البيانات، كحجم العينة، وهامش الخطأ وعدد القيم المفقودة بالملف وأسباب عدم الحصول عليها بالإضافة إلى تعريف كافٍ للمصطلحات والاختصارات المشار إليها في سجلات البيانات، فأنت بدونه كشخص وصل إلى كنز من الذهب لكنه لا يعرف كلمة السر لفتح الباب وأخذ ما به من ثروات.

في إيطاليا على سبيل المثال، شكك صحفيو البيانات في مصداقية البيانات الرسمية واكتشفوا "عيوبًا في البيانات" مختلفة في مجموعات البيانات التي توفرها الحكومة. حيث تم تقديم بيانات رسمية غير دقيقة بشكل متكرر للجمهور، يرجع ذلك في الغالب إلى مجموعة متنوعة من العوامل، بما في ذلك حقيقة أنّ سياسات الاختبار تغيرت مرات عدة خلال العام 2020 وأن المناطق الإيطالية اتبعت نهجًا مختلفة في حصر المصابين، ما يعني اختلاف المنهجية المتبعة في كل منطقة ما يشكل خللاً في البيانات الإجمالية.

إقرأوا أيضًا: دور صحفي البيانات في تغطية جائحة "كوفيد 19"

السياق: حتى البيانات ذات الدقة العالية يجب أن تُفسر بحذر - السياق هو المفتاح. مثلًا حين تعرض جهة رسمية القيم الإجمالية بأعداد المصابين بفيروس كورونا في كل محافظة، لتظهر على سبيل المثال أن العاصمة تسجل أعلى قيمة مقارنة بباقي المحافظات، فهذا لا يعني أنها الأكثر انتشارًا للمرض بل هي الأكبر تعدادًا للسكان، لذا فالسياق الأنسب لمقارنة الأرقام الإجمالية في محافظات يختلف فيها تعداد السكان هو حساب معدل الإصابة بين كل 100 شخص والذي سوف يظهر الانتشار الحقيقي للفيروس بحسب عدد السكان في كل محافظة.

تأكد من فهمك للبيانات: لا تبدأ العمل على أي قاعدة بيانات طالما لم تفهمها فهمًا تامًّا لا لبس فيه، فكيف ستشرح للناس شيئًا أنت لا تفهمه؟ ولكي تفهم قاعدة البيانات التي تتعامل معها، اسأل نفسك الأسئلة التالية وسجل إجابتك بالقرب من سجلات البيانات:

● ماذا تعني المؤشرات؟

● هل يمكنني البحث عن تعريفات للمؤشرات التي لا أفهمها؟

● ما هي المؤشرات غير المدرجة في هذه البيانات والتي من شأنها أن توفر سياقا لها؟

● ماذا تعني الأرقام؟ وما وحدة القياس؟

● ما الفرق بين المعدل أو النسبة المئوية؟

● هل البيانات متاحة من مصدر آخر بمقاييس مختلفة؟

قائمة الأسئلة تطول ولن تنتهي، يبدو أن مهنة الصحفي هي طرح الأسئلة حتى على سجلات البيانات. يمكن أن نطلق على عملية التحقق من البيانات "الطب الشرعي الجديد" في مجال الصحافة لأنها عملية تحتاج إلى فحص وتأنٍّ وتشريح أيضًا، ورغم ذلك فالأمر لا يحتاج  إلى أن يكون الصحفي خبيرًا في تكنولوجيا المعلومات أو أن يكون لديه أجهزة خاصة للإجابة على الأسئلة الأساسية المستخدمة في الحكم على ما إذا كانت البيانات دقيقة أم لا. فلا تزال المهارات والقيم الصحفية التقليدية و"حدس الصحفي" وسائل فعالة للتحقق، وقد تتفوق مسارات التحقق البشري على خوارزميات التحقق التلقائي، ولا تستطيع التكنولوجيا دائمًا إثبات ما إذا كانت البيانات موثوق فيها أم لا، لكنها تقدم أدلة مفيدة وإشارات استرشادية للصحفي من أجل التنقيب وتعقب الأمر.

يعرض المخطط التوضيحي التالي الخطوات التي اتبعها قبل التعامل مع أي قاعدة بيانات أحصل عليها، قد يساعدكم المخطط في بناء استراتيجيتكم الخاصة للتحقق:

صورةعمرو العراقي هو زميل في مركز نايت للصحافة التابع للمركز الدولي للصحفيين.

الصورة الرئيسية حاصلة على رخصة الاستخدام على أنسبلاش بواسطة بالازيس كيتيه.