Icfj 的一个项目

مقدمة إلى أداة تنظيف البيانات OpenRefine

Sep 6, 2021 发表在 صحافة البيانات
صورة

يعدّ تنظيف البيانات يدويًا أمرًا شاقًا وغير ضروري، بالإضافة إلى أنه يجعلك عرضة للخطأ. في الوقت نفسه، ستكون كل مجموعة بيانات تواجهها أثناء إنجازك للقصة الصحفية أو التحقيق الاستقصائي تقريبًا فوضوية. غالبًا ما يكون هناك تناقضات في طريقة إدخال البيانات - من الأخطاء الإملائية إلى المسافات الزائدة - يمكن أن تجعل البيانات صعبة التحليل لاحقًا.

لذلك من المهم للغاية تنظيف بياناتك قبل محاولة استخدامها بأي طريقة. في هذا المقال، ستكتشف واحدة من أهم الأدوات التي ستساعدك في حل مشاكلك، بناءً على مدى ملاءمتها لمجموعة بياناتك. سنتعلم كيفية تنظيف البيانات غير المتسقة باستخدام برنامج يسمى OpenRefine، وهو جزء  من Code for Science and Society.
الهدف الرئيسي من OpenRefine هو مساعدتك في اكتشاف بياناتك وتنظيفها قبل استخدامها مرة أخرى. تم تصميمه للتعامل مع مجموعات البيانات الكبيرة أو الضخمة.

 ولكن ماذا يعني هذا؟

OpenRefine المعروفة سابقًا باسم (GoogleRefine)، هي أداة قوية ومفتوحة المصدر تصور وتتعامل مع كميات كبيرة من البيانات الفوضوية: تنظيفها؛ تحويلها من صيغة إلى أخرى، وربطها على نطاق واسع، دفعة واحدة، ومتاحة بأكثر من 15 لغة.

إنها مشابهة لتطبيقات جداول البيانات (ويمكن أن تعمل مع تنسيقات ملفات جداول البيانات)، ومع ذلك، فإنها تتصرف مثل قاعدة البيانات، حيث يمكنها توصيل قواعد البيانات بخدمات الويب المختلفة مثل OpenStreetMap وخدمات تحديد الموقع الجغرافي الأخرى مفتوحة المصدر.

تشمل وظائفها تنسيق البيانات المستوردة وتحويلها، وتصفية البيانات ذات الصلة وتجميعها من خلال التجميع الآلي، وتحديد التناقضات في خلايا البيانات وتصحيحها (على سبيل المثال توحيد تنسيق التاريخ)، وزيادة البيانات بمعلومات أخرى متاحة للجمهور عبر الإنترنت.

إقرأوا المزيد: تصميم البيانات.. ما هو؟ وما الأخطاء الشائعة؟

يمكن أن تستوعب OpenRefine بضع مئات الآلاف من صفوف البيانات، وهو أمر مثير للإعجاب بالنسبة لأداة مجانية الاستخدام. ستتمكن أيضًا من الوصول إلى مجموعة من أدوات التحرير جنبًا إلى جنب مع برنامج التنظيف، لإعادة تسمية البيانات وتصفيتها وحتى إضافة عناصر محددة. يمكن للأداة تغيير أجزاء كبيرة من البيانات بشكل تفاعلي لتلائم متطلبات الإدارة المحددة.

 أفضل ميزة: يمكنها تحويل البيانات من تنسيق إلى آخر، مما يجعل إدارة مجموعات البيانات الضخمة أسهل، مما يتيح لك العمل بوتيرة أسرع.

كذلك تساعدك من بين الأمور الأخرى:

1- الحصول على نظرة عامة على مجموعة البيانات.

2- تساعدك على تقسيم البيانات إلى أجزاء أكثر دقة، على سبيل المثال تقسيم الخلايا مع مؤلفين متعددين إلى خلايا منفصلة.

3- مطابقة البيانات المحلية بمجموعات البيانات الأخرى، على سبيل المثال في مطابقة الموضوعات المحلية مع عناوين وكالات الأنباء.

4- التوفيق بين البيانات ومطابقتها، يمكن استخدام Open Refine لربط مجموعة البيانات الخاصة بك وتوسيعها.

5-تسمح بعض الخدمات أيضًا لـ OpenRefine بتحميل بياناتك النظيفة إلى قاعدة بيانات مركزية، مثل Wikidata. تتوفر قائمة متزايدة من الإضافات والمكونات الإضافية على موقع wiki.

قد تكون بعض السيناريوهات الشائعة لاستخدام الأداة:

1- معرفة عدد المرات التي تظهر فيها قيمة معينة (الاسم والناشر والموضوع) في عمود في بياناتك.

2- معرفة كيفية توزيع القيم عبر مجموعة البيانات بأكملها.

3- لديك قائمة بالتواريخ التي تم تنسيقها بطرق مختلفة، وتريد تغيير جميع التواريخ في القائمة إلى تنسيق تاريخ واحد مشترك.

تعد Open Refine أكثر فائدة عندما يكون لديك بيانات بتنسيق جدولي بسيط مثل جدول بيانات أو ملف قيم مفصولة بفواصل (csv) أو ملف محدد بعلامات جدولة (tsv) ولكن مع وجود تناقضات داخلية إما في تنسيقات البيانات أو حيث تظهر البيانات أو في المصطلحات المستخدمة. يمكن استخدام Open Refine لتوحيد البيانات وتنظيفها. بالإضافة إلى التعامل مع البيانات الفوضوية، تساعد الأداة أيضًا في التعامل مع البيانات التي ليست بالتنسيق المطلوب مثل تحويل النص إلى جدول.

تثبيت وتشغيل OpenRefine

OpenRefine هي أداة مفتوحة المصدر ومرخصة بموجب ترخيص BSD الموجود في LICENSE.txt. سهلة التنزيل والتثبيت. ومع ذلك، هي أيضًا أداة معقدة لها منحنى تعليميًا حادًا، تعتمد قابلية الاستخدام إلى حد كبير على خلفية الصحفي المستخدم ومهاراته. والخبر السار هو أن الاتجاهات الحديثة في إدارة البيانات وتنظيمها أدت إلى دورات وبرامج جديدة في الأوساط الأكاديمية والمدارس الصحفية، لذلك من المرجح أن يتمتع الخريجون الجدد بالمهارات المطلوبة لاستخدام هذه الأنواع من الأدوات.

بالنسبة للصحفيين الذين يتمتعون بمهارات فنية أكثر (أو الوصول إلى موظفي الدعم الفني)، فإن الأداة لديها إمكانات كبيرة.

لبدء استخدام OpenRefine، انتقل إلى هذه الصفحة لتنزيلها واتبع الإرشادات لتثبيتها. بمجرد التثبيت، قم بتشغيل OpenRefine. وعند تشغيلها، يجب أن تفتح تلقائيًا نافذة متصفح جديدة.

(ملاحظة: لا يعمل OpenRefine كتطبيق سطح مكتب، ولكنه يستخدم بدلاً من ذلك نافذة متصفح).

إقرأوا المزيد: مصادر البيانات.. إليكم الـ12 الأكثر أهمية للصحفيين

نظرًا لأن الأداة لا تستند إلى الويب ويتم تثبيتها محليًا على جهاز الكمبيوتر الخاص بك، فلن يضطر المستخدمون إلى تحميل بياناتهم الحساسة ويمكنهم إجراء جميع العمليات على أنظمة التشغيل الخاصة بهم.

لكن أين يمكنني التدرب على استخدام OpenRefine؟

يوفّر معهد بيركلي المتقدم للإعلام، (Berkeley Advanced Media Institute)، وهو برنامج التطوير المهني الرائد والمتخصص في التدريب على الوسائط الرقمية لمنشئي المحتوى والصحفيين والمحررين ومحترفي الاتصالات والمعلمين، ورش عمل وتدريبًا حول البرنامج.

يتضمّن موقع OpenRefine روابط لمقاطع فيديو تقدم نظرة عامة ووثائق مفصلة للمستخدمين، نتيجة جهود العديد من المطورين الذين يعملون معًا في بيئة مفتوحة المصدر.

عند التعامل مع البيانات، تتيح القدرة على تعديل وتحويل العديد من السجلات في وقت واحد للصحفيين وتوفير كميات هائلة من الوقت وإنشاء بيانات قابلة للاستخدام والعرض وتصفيتها وتعديلها. بالنسبة للصحفيين الذين لديهم بعض الخبرة في البرمجة، من المرجح أن تكون تجربة استخدام OpenRefine مجزية.

للإطلاع على المزيد من الموارد حول البيانات، يرجى الضغط هنا.

عبد اللطيف حاج محمد هو صحفي استقصائي، مهتم بـ صحافة البيانات، والتحول الرقمي في الإعلام.

الصورة الرئيسية المستخدمة حاصلة على رخصة الإستخدام على بيكسيباي بواسطة geralt