استخراج البيانات لم يعد صعبًا.. استخدموا هاتين الأداتين!

بواسطة Sanjit Oberai
Jun 14, 2019 في صحافة البيانات
بيانات

يعدّ استخدام البيانات في التقارير الصحفية أمرًا مهمًا لأنّها تتيح العثور على قصص مخفية، إضافةً إلى تصميم وإنشاء انفوجرافيك وصور تجذب الجماهير، ولتنفيذ هذا العمل يحتاج الصحفي إلى جمع مجموعات البيانات في ملفات PDF أو على المواقع الإلكترونية، وقد يصعب هذا الأمر على الصحفيين، ولهذا عليه معرفة كيفية سحب البيانات من مصادرها وترتيبها ثم البحث عن المعلومات وفرزها وتصنيفها.

وهناك العديد من الطرق لتصفية البيانات، وفي هذا المقال تقدم لكم شبكة الصحفيين الدوليين أداتين بسيطتين لا تتطلبان أي معرفة بالبرمجة أو الترميز لاستخدامهما، الأولى خاصة بالحصول على البيانات من المواقع الالكترونية حيث يلجأ البعض إلى استخراجها ونسخها ثمّ لصقها مباشرة في جدول بيانات Excel. ولكن هناك طريقة مجانية أسهل متمثلة باستخدام Table Capture، من خلال جوجل كروم، التي تتيح للصحفي بنسخ الجداول بشكل HTML من الويب ولصقها في إيكسيل أو جوجل شيتس أو أوبين أوفيس.

في المثال أدناه، نستخدم Table Capture لسحب بيانات ولصقها على جوجل شيتس حول مرض السل من حقائق عن السل، وهو موقع ينشر بيانات مجانية عن المرض.

data scrape 1

أولاً، ستحتاج إلى تثبيت تطبيق Table Capture من جوجل كروم، وبعد ذلك، ستتمكن من الوصول إليه من أعلى الزاوية اليمنى من متصفح جوجل كروم. يشير السهم الموجود في الصورة أدناه إلى Table Capture.

data scrape 2

ثانيًا، تتحول Table Capture من اللون الأسود إلى الأحمر عندما تكتشف جداول HTML على الموقع. وعند النقر فوق الرمز الأحمر تفتح قائمة تعرض لك البيانات الموجودة على صفحة الويب التي يمكنك نسخها. في هذا المثال، يوجد جدول واحد يحتوي على بيانات يمكنك استخراجها.

ثالثًا، لاستخراج مجموعة البيانات هذه، انقر أولاً على "(123 × 4)" في القائمة، وسيؤدي ذلك تلقائيًا إلى اختيار البيانات ونسخها. بعد ذلك، انقر على أيقونة اللون الأخضر في أعلى يمين القائمة لفتح أوراق جوجل ولصق البيانات في جدول البيانات. وإذا كانت صفحة الويب تحتوي على جداول متعددة، يمكن النقر فوق "تحديد كل الجداول" لنسخها جميعًا مرة واحدة.

data scrape A

أما الأداة الثانية فهي Tabula المجانية لاستخراج البيانات من الـPDF، وما عليكم فعله هو تنزيل تابولا على جهاز الكمبيوتر، وبعدها فتحها، حينها سترى زر تصفح أزرق (Browse). انقر فوق هذا الزر لتحديد ملف PDF الذي تريد تحميله من الكمبيوتر وستسغرق العملية من 20 إلى 30 ثانية، وبعدها سيضاف الملف إلى قائمة "ملفات PDF المنزلة" التي تراها في الصورة أدناه.

 

data scrape 3

 

وبعدها، يبيّن لك Tabula ملف الـPDF الذي قمت بتنزيله، وفيه يمكنك تحديد البيانات التي تريدها.

 data scrape 5

الخطوة التالية هي سحب فأرة الحاسوب فوق الجدول الذي لا تريده، وسوف يسلّط Tabula الضوء على اختيارك باللون الأحمر.

 

data scrape 6

الآن، إضغط على زر "معاينة وتصدير البيانات المستخرجة" باللون الأخضر “Preview & Export Extracted Data”  في الجزء العلوي من الصفحة.

 

data scrape 7

وبعدما يبيّن لك Tabula البيانات المحددة، حدّد كيفية الحفظ كملف CSV، إضغط على “Export” وعندها سيتم تنزيل الملف على الكمبيوتر. وعند فتح الملف ستتمكّن من تحليل البيانات في إكسيل.

 

data scrape 8

data scrape 9

data scrape 10

سانجيت أوباراي هو زميل سابق في مركز نايت للصحافة، ومقيم في الهند حيث يعمل مع بروتو.

الصورة الرئيسية حاصلة على رخصة الاستخدام على أنسبلاش بواسطة ماركوس سبايسك.