Icfj 的一个项目

أدوات مهمة لتجريف البيانات من المواقع الإلكترونية.. تعرّفوا إليها

作者 Asma Qandil
May 14, 2021 发表在 صحافة البيانات
صورة

أصبح الأمر يسيراً الآن على صحافيي البيانات أن يقوموا بتجريف البيانات والمعلومات من المواقع الإلكترونية وذلك من خلال توظيف الأدوات والمنصات الرقمية المصممة خصيصاً لهذا الهدف، حيث يقوم الصحافي بتحديد الروابط، أو الموضوعات التي تحتوي على بيانات معينة يريد استخلاصها وذلك من خلال إتباع خطوات بسيطة تختلف حسب طبيعة الأداة المصممة لتجريف البيانات، وفي النهاية يحصل  الصحافي على جداول منظمة يمكنه تحليلها وتمثيلها بيانياً في أغراض متنوعة.

وتقدم لكم "شبكة الصحفيين الدوليين" مجموعة من أدوات تجريف البيانات ستساعدكم في عملكم سواء أكنتم تعدون تحقيقات استقصائية مدفوعة بالبيانات أو قصصاً صحفية، فإلى نص المقال:

-موقع "octoparse": يمكنك استخدام هذا الموقع من تجريف البيانات المنشورة في صفحات الويب، حيث يتسم الموقع بسهولة وبساطة استخدامه ولا يتطلب منك أن تكون على دراية مسبقة بالأكواد البرمجية، حيث تقوم في البداية بخطوة تسجيل بياناتك الشخصية في الموقع مثل اسمك، وبريدك الإلكتروني، وكتابة كلمة المرور وتأكيدها، ثم تقوم بتفعيل الرابط المرسل إليك على إيميلك، وبعدها اذهب إلى صفحة الموقع الرئيسية وقم بتنزيل برنامج "Octoparse"وذلك وفق إصدار الويندوز الموجود في جهازك الشخصي، وبعدها ستنتظر لحين إكتمال تحميل مجلد مضغوط على جهازك والذي يحتوي على ملف تحميل البرنامج، وبعدها تبدأ رحلتك في استخراج البيانات والمعلومات من صفحات الويب.

-بعد تثبيت البرنامج على جهازك، اضغط على كلمة "New" الموجودة في الجانب الأيسر من البرنامج ثم اختر "Task Templates"، وستجد مجموعة من المواقع التي يساعدك البرنامج في استخراج المعلومات منها مثل: "Amazon"، "eBay"، و"Booking"، و"يوتيوب"، و"تويتر"، و"إنستجرام"، و"خرائط جوجل"، و"Indeed".

-يُمكنك البرنامج أيضاً من طلب استخراج البيانات من مواقع معينة من خلال تعبئة استمارة تحتوي على معلومات معينة يطلبها منك الموقع، وإذا أردت الوصول إليها؛ اضغط على أيقونة "I need new Template"، والتي ستحيلك مباشرة إلى هذا الرابط.

-يمكنك أيضاً استخراج البيانات من أي موقع إخباري من خلال العودة إلى الصفحة الرئيسية "Home"، ولصق رابط الموقع في مربع "Start" وبعدها ستبدأ مهمة البرنامج في عرض كافة حقول البيانات المخزنة في الموقع سواء أكانت على هيئة روابط أو صور أو فيديوهات، وستنتظر دقائق معدودة لحين اكتمال كافة البيانات المعروضة في صفحة الويب.

-ستظهر النتائج على هيئة جدول يحتوي على الرقم المسلسل للموضوعات، وعناوينها، وروابطها المتعددة المنشورة في الموقع الإخباري، وبجوار كل موضوع أيقونة الحذف إذا أردت حذف هذا الحقل من نتيجة بحثك.

-في النهاية، قم بتحديد الرابط أو الموضوع الذي تريد استخراجه ثم اضغط على أيقونة "Run" الموجودة في أعلى الموقع، وبعدها يبدأ الموقع في استخراج البيانات، سواء أكنت تحتاجها في ملف "إكسل"، أو "CSV"، أو ملف "Json".

صورة

  • موقع "Parsehub": يُمكن هذا الموقع المستخدمين وصحافيي البيانات من استخراج البيانات من صفحات الويب سواء أكانت مواقع إخبارية شهيرة أو مواقع عفى عليها الزمن وذلك في ثلاث خطوات بسيطة، ففي البداية قم بتحميل البرنامج على جهازك سواء أكان يعمل بنظام تشغيل "ويندوز" أو "ماك"، أو "لينكس"، ثم قم بتنزيل برنامج "Parsehub" على جهازك، وبعدها تبدأ رحلتك الممتعة في عملية تجريف البيانات، حيث تقوم باختيار رابط الموقع، وبعدها سيقوم البرنامج بتجريف البيانات وعرضها في جداول والتي يُمكنك الحصول عليها في صيغة ملف "إكسل".

صورة

-أدوات تجريف البيانات التي يمكنك تثبيتها على متصفحات الويب مثل: "Web Scrapper" وهي أداة يستخدمها أكثر من 350 ألف مستخدم، ويمكنك إضافتها على متصفح "Chrome" أو "Firefox" من خلال الدخول على هذا الرابط،  وتتسم هذه الأداة بقدرتها على استخراج البيانات من المواقع التفاعلية والتي تحتوي على قوائم رئيسية، وقوائم منسدلة في  صفحتها الرئيسية، حيث تبحر الأداة في الأقسام الفرعية لتستخرج النتائج التي تريد توليدها في ملفات إكسل أو بصيغة CSV، وهناك أداة "Scraper" والتي يمكنك إضافتها على متصفح "جوجل كروم" من خلال الدخول هنا، وأداة "Getdata.IO" والتي يمكنك إضافتها على متصفح "جوجل كروم" من خلال الدخول على هذا الرابط.

- موقع "scrapingbot": يساعد الموقع المستخدمين في استخراج المعلومات من صفحات الويب المصممة بلغة "HTML"، وبعدها يصبح بإمكاننا تنزيل البيانات في صورة مجدولة، ويمكنك التعرف على الخدمات المتنوعة التي يقدمها الموقع من خلال النقر هنا.

صورة

وهناك مواقع أخرى متنوعة تساعدك في تجريف البيانات مثل: موقع "ScrapingBee"، وموقع "import.io"، وموقع "scrapestack"، وموقع "scraperapi".

الصورة الرئيسية في الموقع تحمل رخصة المشاع الإبداعي على موقع "Freepik"، ويمكنك تحميلها من خلال الضغط هنا.

والصور الأخرى المنشورة في المقال مأخوذة من المواقع التي تُتيح لصحافيي البيانات والمستخدمين تجريف البيانات.