كيف يمكن للصحفيين والمدققين كشف الحيل المضللة لقواعد ورسوم البيانات؟

Mar 4, 2024 في صحافة البيانات
صورة

دائمًا ما يسوّق أرباب الأعمال الاقتصادية والسياسية والإعلامية مقولة "الأرقام لا تكذب"، باعتبار أنّ الأرقام تكون دقيقة وتعكس المطلوب قياسه أو إثباته، والذي ينعكس بالطبع في هيئة رسوم بيانية بصرية تلفت الأنظار لتدل على احترافية العمل وقدرتهم على تبسيط البيانات في أشكال بصرية سهلة للجمهور العام غير المتخصص، في مقابل ذلك يسوق البعض المقولة المنسوبة تاريخيًا للكاتب الأميركي مارك توبن بأن "الأرقام لا تكذب ولكن الكذابين يكتبون أرقامًا" كضرورة ملحة للبحث خلف الرسوم البيانية وأشكالها المتعددة وتحديدًا حول الطريقة التي بنيت بها قواعد البيانات وطرق تحليلها ومصادرها والصحفيين القائمين عليها.

وفي الوقت التي تتسارع فيه وتيرة التطور التكنولوجي في المجال الإعلامي وأدواته الحديثة باتت القصص الصحفية "المدفوعة بالبيانات" و"المدعومة بالبيانات" التي تعتمد في النهاية على "التمثيل البصري للبيانات"، في صدارة الاهتمام سواء في الصحف أو المواقع الإخبارية وحتى القنوات التلفزيونية ومنصات التواصل الاجتماعي، والتي في الكثير من الأحيان ربما تكون مضللة على الرغم من البيانات الضخمة والأعمدة والصفوف الموجودة خلف ستار تلك الرسوم البيانية.

في حديثة لـ"شبكة الصحفيين الدوليين"، يعتبر مؤسس مدرسة البيانات المدرب والأكاديمي عمرو العراقي، أنّ التضليل المعتمد على البيانات يتم نشره إما عن عمد من ناشريه أو في أسوأ الحالات من دون عمد، عند إساءة استخدام تطبيقات التمثيل البصري للبيانات، مشددًا على أن الدقة في قواعد البيانات ليست رفاهية أو مجرد "ديكور" صحفي، لكنها ضرورة في غاية الأهمية لبناء ثقة الجمهور وعدم إلحاق الضرر بأشخاص أو مؤسسات.

وكشف عمرو العراقي عن أشهر 8 حيل (خدع) تتعلق بالتضليل المعتمد (المبني) على البيانات، والتي يمكن تلخيصها كالتالي:

الخدعة الأولى:

تتعلق بالنسب المئوية وخصوصًا نسب التغير من فترة لفترة، لا سيما عندما يتم إخفاء الأرقام الحقيقية وإظهار نسب التغير فقط "كإعلان مؤسسة أو جهة أو شركة عن تحقيقها طفرة في المبيعات وصلت إلى 100% هذا العام مقارنة بالعام الماضي"، وهنا يندفع الصحفي خلف هذه المعلومة التي يُفترض أنها صحيحة وفي غاية الدقة، لكنها أغفلت الأرقام الحقيقية التي أدت إلى هذه النسبة والتي ربما تكون أرقامًا ضئيلة بالأساس، مثل إعلان شركة عقارات أنّ المبيعات كانت 10 وحدات وفي العام التالي باعت 20 وحدة، وفي الحالتين رغم الزيادة 100% أو المضاعفة فإنّ الرقم ضئيل للغاية.

الخدعة الثانية:

تتعلق بـ"المقارنة مع عدم توحيد الأساس" وهو ما يعني أن نقوم بمقارنة معدلات الجريمة في مدينة بمدينة أخرى وتعداد السكان في المدينتين غير متساوٍ، فيقال إنّ معدل الجريمة في محافظة ما أعلى بكثير من محافظة ثانية مع إغفال أن تعداد السكان في الأولى أكبر بنسبة كبيرة جدًا من تعداد السكان في المحافظة الثانية، وبالتالي فإنّ هذا النوع من المقارنات يفتقد توحيد الأساس.

الخدعة الثالثة:

تتعلق باختلاف سنوات المقارنة، ما يعني أنه ربما تميل المؤسسات لنشر تقرير واحد تعلن فيه تحقيق نمو يبلغ 50% هذا العام مقارنة بعام تختاره من الأعوام السابقة باعتباره أقل عام للمقارنة، مثل مقارنة النمو للعام الحالي 2023 بعام 2010 في حين لو قارنته بالعام الماضي فلن يظهر تحقيق أي نمو بل ربما يكشف عن تراجع، مشددًا على أنّ أساس المقارنة في السنوات في تقرير واحد يجب أن يكون منضبطًا وله مبرر في اختيار أعوام المقارنة.

الخدعة الرابعة:

تتعلق بما يعرف بـ"التقريب"، فعادة ما تميل المؤسسات إلى تقريب أرقامها بشكل أو بآخر وتنشر الأرقام بشكل دائري، أي أنه في الأغلب دائمًا ما تحمل الأرقام كسورًا، لكن المؤسسات تقوم بتقريب تلك الأرقام لأعلى، وهو خطأ لا بد من أن ينتبه له المدققون والقراء.

الخدعة الخامسة:

تلجأ لها المؤسسات وهي نشر البيانات التي تأتي نتائجها عبر استطلاعات للرأي بدون الإشارة لحجم العينة، طريقة جمع العينة، هامش الخطأ في الاحصائيات، معامل الخطأ، الفئات العمرية للعينة، وبالتالي على المدققين التساؤل حول كل تلك التفاصيل الخاصة بالاستطلاع نفسه، لأنّ الاستطلاعات ربما تكون منحازة أحيانًا سواء في اختيار العينة أو خطأ في طريقة توزيع الاستبيان، فحينما ندشن استطلاعًا لجامعي القمامة على الانترنت حول متوسطات أجورهم على الرغم من عدم تواجدهم على الانترنت من الأساس لكنهم في الشارع أو ليس لديهم هواتف أو انترنت أو حتى ليس لديهم صلاحية الوصول لمنصة تواصل اجتماعي حيث تم توزيع الاستبيان، وبالتالي لابد خلال عملية التدقيق في البيانات معرفة الظروف التي تمت فيها الاستطلاعات.

الخدعة السادسة:

تتعلق بمقارنات نتائج استطلاعات الرأي ببعضها وخاصة المتعلقة بمدى رضاء المواطنين على سلع أو أسعار  تغفل معامل الخطأ في كلا الاستطلاعين، وهنا نعتبر النتائج غير دقيقة لأنه لم يتم احتساب معامل الخطأ.

الخدعة السابعة:

تتعلق بالإعلان عن نتائج النمو بدون ذكر سببها ومصدرها (فحينما تقول شركة مثلًا إنها حققت أرباحًا مهولة هذا العام، عليها أن توضح هل هذه الأرباح كانت نتيجة لعملية التشغيل؟ نتيجة لممارسة الشركة لنشاطها المعتاد. أم نتيجة ربح رأس مال؟ أم أنها باعت جزءًا منها وهو ما يحدث كثيرًا للشركات المالكة لمكاتب ومخازن ومساحات واسعة من الأراضي رغم أن نشاطها الأساسي لا يشمل بيع الأراضي. كشركة أدوية كانت تخسر لسنوات طويلة وفجأة قالت إنها حققت أرباحًا لم تحققها من قبل وعملت طفرة كبيرة جدًا في الأرباح). وهنا يجب أن يتساءل المدققون والقراء كيف حدث ذلك، لأنها لن تتمكن من تكرار هذا الربح مرة أخرى.

الخدعة الثامنة:

تتمحور حول أنّ الأرقام عادة ما تمثل عينة من المجتمع، فحينما نذكر متوسط دخل المواطنين في بلد ما فإننا بالتأكيد لم نحصر كل هؤلاء المواطنين في المجتمع نفسه، لكننا أخذنا عينة فبالتالي علينا أن نعرف ذلك جيدًا، في أغلب الحالات يجب التفرقة ما بين الأرقام التي تمثل المجتمع والأرقام المأخوذة من المجتمع، لأن المجتمع لا يمكن حصره (لا يمكن حسابه لكن يمكن تقديره).

وقد انتبه الكثير من الكتاب وعلماء البيانات وأعلام الصحافة لخطورة البيانات واستخدامها بأشكال غير دقيقة لتضليل الرأي العام، فنجد المقولة الشهيرة المنسوبة للكاتب الأميركي مارك توين "هنالك ثلاثة أنواع للكذب: الأكاذيب، والأكاذيب اللعينة، والإحصائيات"، معتبرًا أن الإحصائيات التي تخرج في هيئة قواعد بيانات وتنعكس في رسومات بيانية ويعتبرها البعض حجة ودليلًا لا يقبل الشك ربما تكون سببًا في التضليل وطمس الحقائق. كما نشر الكاتب الأميركي داريل هوف، 1954، كتابًا تحت عنوان "كيف تكذب بالإحصائيات"، حاول فيه لفت انتباه القارئ العادي أن يفهم جيدًا كيف تكذب الأرقام في جريدته اليومية، ونشرة الأخبار المسائية، والمجلات الدورية العلمية منها والترفيهية.

من جانبها، توضح رئيسة قسم تدقيق المعلومات وصحافة البيانات في المصري اليوم، مها صلاح الدين لـ"شبكة الصحفيين الدوليين" أنّ الأخطاء والحيل الشائعة للتضليل في قواعد ورسوم البيانات تبدأ بقواعد البيانات نفسها، لافتةً إلى أنه يتم الاستناد على إحصائية قديمة فقط لخدمة الفرضية المراد إثباتها للقارئ، وتجاهل نسخ أحدث منها أثتبت عكس تلك الفرضية، وكذلك تجريف البيانات بشكل خاطئ وعدم تدقيقها، مما قد ينتج نتائج غير حقيقية.

وتؤكد مها صلاح الدين أنّ أخطاء بسيطة في الإدخال وتجاهلها أثناء عملية تنظيف البيانات، قد تؤدي إلى أخطاء جسيمة في تحليل البيانات، مثل كتابة اسم محافظة بطريقتين "الجيزه" و"الجيزة"، فتخرج إحصائيات مضللة. وأشارت إلى أن الصحفي قد يحلل البيانات محتسبًا خانة المجموع، فتصبح النتائج والنسب مضاعفة ومضللة، وكذلك قد يتجاهل تحويل الأرقام إلى نسب مئوية، أو يتعامل مع النسب على أنها أرقام، فتصبح عملية التحليل مضللة ومنقوصة.

وتعتبر مها أن الصحفي قد يتعامل مع النسب لتضخيم حجم الزيادة، فقد يقول إننا منحنا زيادة في الرواتب بنسبة ١٠٠٪، وهي نسبة كبيرة، في حين أن الرواتب أصلا ١٠٠٠ جنيه، وبعد الزيادة ٢٠٠٠ جنيه والتي تظل أيضًا أقل من الحد الأدنى للأجور وأقل من خط الفقر، كما قد يبالغ الناشر في تقريب النسب المئوية مثل أن تكون نتيجة التحليل 72% فيكتب في النص أنها قاربت الـ80%.

ووفقًا لمها صلاح الدين، فقد يختار الصحفي/ة شكل مخطط بياني غير مناسب للإجابات التي يريد استخلاصها من البيانات، أو أن يتعمد الناشر إخفاء جزء من البيانات لصالح خدمة إثبات فرضيته.

الصورة الرئيسة حاصلة على رخصة الاستخدام على أنسبلاش بواسطة كريس ليفيراني.