كيفك تستخدم Google Refine في مقالتك القادمة

بواسطةMaite Fernandez
Oct 24, 2011 في الصحافة الرقمية

بعد أن قضيت عدة أشهر في إجراء مكالمات هاتفية وإرسال الإيميلات وصبرت كثيراً، وحصلت في النهاية على مجموعة البيانات التي كنت تبحث عنها من وكالة حكومية.

قبل الشروع في أحلام اليقظة حول الحصول على جائزة بوليتزر عبر القصة الرائعة التي ستكتبها، ستلاحظ أن البيانات التي جمعتها فوضوية ويصعب فهمها.

يساعدك Google Refine على تنظيف البيانات قبل البدء باستخدامها فعلياً واستخلاص الاستنتاجات.

تحتاج أولاَ إلى تحميل Google Refine. كما هو موضح في هذا البرنامج التعليمي، على الرغم من أنك ستسخدم Google Refine من خلال متصفح الإنترنت، إلا أن Google Refine هو تطبيق على سطح المكتب، لا داعي للقلق حول تحميل بيانات حساسة على الإنترنت. يتوافق البرنامج مع ويندوز وماك ولينكس، وأفضل ميزاته أنه مجاني.

بعد إعطاء اسم لمشروعك والضغط على "إنشاء مشروع"، سترى البيانات المعروضة في Google Refine.

الآن وأنت جاهز لبدء العمل على المشروع، ستلاحظ في بياناتك أنه يمكن تنسيق المعلومات على نحو مختلف. على سبيل المثال ، يمكن إدخال التاريخ بطرق مختلفة: 6 تشرين الأول/ أكتوبر 2011، أو 2011/10/06، كما يمكن أن يحدث هذا أيضاً مع حقول الأرقام والنص.

المشكلة هي أنه إن كنت تبحث ضمن البيانات وكانت المعلومات غير مدخلة بذات الطريقة، فإن النتائج ستكون ناقصة وستحصل على بحث لا يمكن الوثوق بنتائجه ولا يمكن أن يستخدم في القصة.

يمكنك إصلاح هذا باستخدام ميزة النص أو الأرقام في Google Refine، التي تجمع بين الخلايا المتطابقة وتظهر لك عدد المرات التي كررت فيها المعلومات. على سبيل المثال، يمكن أن تظهر لك عدد المرات التي أدخلت فيها ذات المعلومة بأشكال أو صيغ مختلفة. (يمكنك تعلم المزيد حول هذه الميزة في هذا الفيديو التعليمي). سيساعدك هذا على معرفة ما إذا كانت هناك بيانات تشير إلى الشيء ذاته لكنها مدخلة بأسماء أو طرق مختلفة. على سبيل المثال.

ميزة أخرى مثيرة للاهتمام هي "التجميع" (clustering)، والتي تحاول العثور على مجموعة من القيم المختلفة من الحقول التي قد تشير إلى ذات الشيء. يمكنك قراءة المزيد عن هذه الميزة هنا.

يتيح لك Google Refine أيضاً إمكانية القضاء على المساحة البيضاء لجعل البيانات أكثر اتساقاً. قد لا تلاحظ ما إذا كان اسم ما يحتوي على مسافة بين الأحرف لكنه سيكون مشكلة عند تحليل البيانات. يمكنك التخلص من هذه المشكلة عبر استخدام الخيار "تقليم المساحة البيضاء الزائدة" (trim leading and trailing white space)، كما هو موضح في هذا الدليل الذي أنشأه بول برادشو.

أيضاً، إذا قمت بإجراء أية أخطاء في تعديلاتك، يمكنك التراجع عنها بسهولة. يتابع Google Refine كل تغيير تجريه على بياناتك، لذا فإنه من السهل تغييرها مرة أخرى.

بإمكانك تحميل Google Refine من هنا، وهناك العديد من الدروس المفيدة التي ستساعدك على الإنطلاق. كما يتضمن البرنامج مجموعة قليلة من البيانات يمكن استخدامها في تجريب البرنامج.