التنقيب في البيانات النصية.. عمَّ نبحث في النصوص؟ 

Feb 12, 2024 في موضوعات متخصصة
صورة

حظيت البيانات الرقمية بأهمية متصاعدة في الصحافة العربية في ظل انتشار مفهوم صحافة البيانات، وتزايد اهتمام الصحفيين العرب بإنتاج هذا النوع من القصص الرصينة المستندة إلى البيانات، فضلًا عن انتهاج العديد من المؤسسات نهج البيانات المفتوحة التي سمحت بنشر قواعد البيانات على المنصات الرسمية، لكنّ الأرقام وحدها لا تمثل الصورة الكاملة للبيانات، فهي أحد أنواعها، النوع الآخر هو البيانات الوصفية (النصية) والتي لا يمكن أن تخلو أي قصة صحفية منها، فما من قصة صحفية تخلو من وصف لمشهد أو مشاعر للناس أو آراء لخبراء.

يمكن أن تأخذ البيانات النصية أشكالًا عديدة، منها ردود الاستبيانات، أو تعليقات المواطنين على منصات التواصل الاجتماعي أو تغريداتهم حول موضوع محدد، كذلك استمارات الشكاوى والاقتراحات التي تأتي من صناديق الشكاوى في المؤسسات العامة، كذلك تقييمات المنتجات والخدمات عبر منصات البيع الالكترونية، وتصريحات المسؤولين ومدونات المحاكم واجتماعات مجالس النواب وكذلك أرشيف الأخبار، كلها مصادر مختلفة ومتنوعة لبيانات نصية غير مهيكلة تأتي عادة على هيئة نص حر، سطر يتبع الآخر، وغير مصنفة أو مجدولة.

وكلما زاد عدد المدخلات في تلك النصوص، زادت أهميتها، وأصبح التنقيب بداخلها أمرًا مجديًا، حيث يمكن الخروج من هذه الكومة من البيانات النصية بكنز من المعلومات المخفية تقودنا لقصة صحفية معمقة. التنقيب في البيانات النصية (تعدين النص) مفهوم تقني، يقصد به استخدام التقنيات والأساليب الإحصائية لاستخراج المتغيرات القابلة للقياس من المدخلات النصية غير المهيكلة، التي تأتي على هيئة نص غير مجدول، مثل النصوص التي تأتي في المستندات أو صفحات الويب أو عبر رسائل البريد الإلكتروني ووسائل التواصل الاجتماعي، والهدف الرئيسي من هذه العملية هو تحويل النصوص من صورتها غير المهيكلة إلى الصورة المهيكلة التي يمكن التعبير عنها في جدول بيانات مكون من صفوف وأعمدة.

جدولة البيانات واستخراج السمات

قبل أن نبدأ في تحليل النصوص، علينا أن نحدد ما هو مستوى التحليل، هل ننظر إلى المستندات الكاملة، أم الجمل المنفردة أو مستوى الكلمات التي تتكون منها الجمل، حيث أنّ كل مستوى من تلك المستويات يتطلب تقنيات مختلفة، وفي جميع الحالات سنحتاج أولًا لتحويل البيانات من هيئتها غير المنظمة - غير المجدولة - إلى هيئة مجدولة. مثلًا عند تحليل أرشيف الأخبار في منصة إخبارية إلكترونية معينة، وتحديدًا تلك الأخبار التي ارتبطت بجرائم القتل، حيث يمكن حصرها من خلال عمليات البحث داخل المنصة واستخراجها باستخدام أحد تطبيقات استخراج البيانات من صفحات الويب ومنها Data Miner وأداة Octoparse.

مثال على هذا النوع من الأخبار:

"انتقل معاون المباحث بقسم الدقي لمعاينة موقع جريمة دامية، حيث قُتل زوج عاطل عن العمل بالغ من العمر 23 عامًا، بعدما طعن زوجته ربة المنزل البالغة من العمر 28 عامًا بسكين حاد، إثر مشاجرة نشبت بينهما بسبب خلافات مادية".

يشكل هذا النص رصدًا تفصيليًا لجريمة قتل وقعت في نطاق الأسرة بين زوج وزوجة، موضحًا السبب الوسيلة والموقع الجغرافي وكذلك عمر ووظيفة  الجاني والضحية. هذه المعلومات التفصيلية ترتبط بهذه الواقعة فقط ولا يمكن الخروج منها بمؤشرات عن ظاهرة القتل في نطاق الأسرة بشكل عام، لكن في الغالب ما تصاغ مثل هذه الأخبار على هذه الشاكلة لتجيب على الأسئلة الصحفية للخبر (ماذا، من، متى، أين، كيف، لماذا)، وإذا ما توفر لدينا أرشيف كامل من الأخبار التي نشرت عن هذا النوع من الجرائم لمدة عام أو أكثر، يمكن في هذه الحالة استخراج السمات من كل خبر على حدى ووضعها في أعمدة بجدول بيانات، معنونة بما تحتويه من مدخلات، كعمود العمر، السبب، الموقع الجغرافي إلخ، ومن هذه الأعمدة الجديدة التي تم توليدها عبر استخراج السمات من كل خبر سنتمكن من تحليل سجل الجرائم التي وقعت في تلك الفترة لنخرج بمؤشرات مثل متوسط عمر الضحايا أو ترتيب أسباب القتل بين الأزواج تنازليًا للوقوف على السبب الأكثر تكرارًا.

عندما نملك قاعدة بيانات مكونة من أعمدة، عمر الضحية، عمر الجاني، الموقع الجغرافي للجريمة حسب الحي/المحافظة/الإقليم، السبب، الطريقة التي تمت بها جريمة القتل، هذا النهج يساعد في استخدام البيانات النصية لتحليل ظاهرة القتل في نطاق الأسرة وفهم أكثر عمقاً للعوامل والاتجاهات المرتبطة بها. يمكن تطبيق الأمر ذاته على العديد من البيانات النصية مثل قرارات المسؤولين أو تعليقات المستهلكين أو تغريدات المواطنين حول موضوع معين.

مثلًا، في قرار رئيس الوزراء التالي:

"وافق رئيس الوزراء في القرار رقم XXX لسنة XXXX على تخصيص قطعة أرض مساحتها XXXX الواقعة في منطقة XXX لإقامة مركز للأنشطة الرياضية في محافظة XXX لخدمة أبناء المحافظة".

وهنا يمكن إنشاء قاعدة بيانات تحتوي على أعمدة، مثل: رقم القرار - التاريخ - تصنيف القرار- المساحة - المحافظة، كما يمكن استنباط أعمدة أخرى من تلك الأعمدة مثل: الإقليم حيث يمكن استنتاجه من المحافظة - الوزارة المعنية بالتنفيذ أو الوزارة المستفيدة.. إلخ.

في علم البيانات وتعلم الآلة، يُفهم استخراج السمات (Feature Extraction) كعملية استخراج مجموعة من السمات القابلة للتحليل والفهم من البيانات، حيث تعتمد معالجة الحاسوب للغة الطبيعية NLP على تقسيم النص إلى وحدات صغيرة "Tokens" حيث يمكّن هذا التقسيم الحاسوب بالتعرف على كل كلمة، وتحديد ما إذا كانت فعل أو فاعل أو مفعول به، اسم لشخص أو لمكان أو بلد، ومع تكرارها يتمكن الحاسوب من حساب الوزن النسبي لأهميتها في النص، وكذلك يصنفها حسب العاطفة إذا كانت كلمة ذات طابع سلبي أو إيجابي أو محايدة. الهدف من هذه العملية هو توليد متغيرات جديدة لسجل البيانات بشكل يجعلها قابلة للمعالجة بفعالية أكبر ويسهل استخدامها.

يمكن استخراج السمات، بأي تكنولوجيا بسيطة أو متقدمة، حيث يمكن إجراء ذلك باستخدام مجموعة من الخطوات في برنامج مايكروسوفت إكسل، أو من خلال مكتبات معالجة اللغة في لغات البرمجة مثل بايثون وR. من خلال البحث عن الكلمات المفتاحية في النص، مثل البحث عن أفعال محددة أو قائمة بأسماء مواقع معينة، أو كلمات تلحق بكلمة محددة، أو بالبحث عن الأرقام، أو الكلمات التي تأتي بين علامتي تنصيص أو بين الأقواس أو علامة ترقيمية أخرى، من بين هذه السمات التي ينبغي النظر إليها عند تحليل النصوص:

  • التاريخ والتوقيت

في كثير من الحالات ما تحتوي النصوص على معلومات حول التاريخ، سواء كانت هذه النصوص قرارات تم إقرارها من قبل جهة أو شخص ما، يساعد استخراج هذه المعلومة ووضعها في عمود منفصل في قاعدة البيانات من تحليل السياق الزمني لهذه النصوص وكذلك تحديد الفترات الزمنية التي شهدت نشاطًا مكثفًا أو تغييرات كبيرة، من خلال تحديد التواريخ، يمكن ربط الأحداث المحددة في النصوص بأحداث أخرى خارج قاعدة البيانات. ذلك يتيح فهم العلاقات بين مختلف الأحداث والتأثيرات المتبادلة.

  • الموقع الجغرافي

قد تحتوي النصوص على إشارة لموقع جغرافي، قرية، مدينة، محافظة، دولة، قارة أو على عنوان تفصيلي يحتوي على اسم الشارع ورقم المبنى، أو قد يتضمن الإشارة إلى الموقع الجغرافي من خلال إحداثيات الموقع على خط الطول وخط العرض، كلها إشارات مفيدة لفهم أين وقع الحدث، وبناء العديد من التحليلات المكانية.

  • الفعل الأساسي

في اللغة العربية، الفعل هو الكلمة التي تعبر عن الحركة أو التغيير في الزمن، ويتكون من جذع وتضاف إليه ملحقات من الحروف حسب الزمن (مضارع، ماضي، المستقبل) والعدد (مفرد، جمع) والنوع (مذكر، مؤنث)، حيث يأتي الفعل في أشكال مختلفة ليتناسب مع سياق الجملة وزمن الحدث، يساعد تحديده واستخراجه في فهم ملخص النص أو تصنيفه، على سبيل المثال وبالعودة لأخبار القتل في سياق الأسرة، الأخبار التي تحتوي على فعل الشروع في قتل، تختلف عن تلك التي تحتوي على فعل القتل فقط. 

  • الفاعل

يمثل الفاعل الشخص أو الكائن الذي يقوم بالفعل أو الحدث الوارد في الجملة، يمكن تحديده من خلال البحث عن الكلمة التي ترتبط مع الفعل وتلحق به، وقد تشير إلى أسماء أشخاص أو مؤسسات أو أشياء أخرى، كما يمكن أن يكون اسمًا أو ضميرًا أو جملة كاملة تؤدي دور الفاعل.

  • الجملة الرئيسية

استخراج الكلمات والعبارات المهمة التي تلتقط جوهر النص من مستند نصي معيّن. تستند جميع خوارزميات استخراج الكلمات الرئيسية والعبارات الشائعة غير الخاضعة للإشراف إلى فكرة تمثيل الكلمات والعبارات في النص بتمثيل النص في رسم بياني مرجح حيث يشير الوزن النسبي لكل جملة إلى أهميتها في النص، ثم يتم تحديد العبارات الرئيسية بناءً على مدى ارتباطها ببقية الجمل في الرسم البياني.

  • أسماء الكيانات (أشخاص - مؤسسات - دول)

تعرف هذه الخاصية باسم (named entity recognition) أو (NER) حيث تعمل خوارزميات تعلم الآلة على التعرف على أسماء الأشخاص أو المؤسسات وكذلك الدول، فمثلًا عند تحليل خبر منشور في الصحف حول شركة Apple فبوسع الحاسوب أن يتعرف على هذا الأسم ويدرك أنه اسم لشركة تعمل في نشاط التقنية وأن المقصود به ليس فاكهة التفاح. تساعد هذه الأداة في التعرف على أسماء الكيانات بلغات عديدة.

صورة من ملف التكويد، تستعرض كيفية التعرف على أسماء الكيانات من خلال خوارزميات تعلم الآلة

  • الكلمة الأكثر تكرارًا

يساعد تحديد الكلمات الأكثر تكرارًا على فهم الرسالة الأساسية التي يحتويها النص أو الفكرة التي يحاول سارد هذا النص التعبير عنها، سواء كان ذلك ضمن تعليقات القراء على الموضوعات الصحفية أو ضمن تقييمات العملاء لإحدى السلع أو الخدمات المقدمة عبر الإنترنت، وفي كثير من الحالات قد يخلو النص من كلمة جوهرية ذات تكرار بارز أكثر من غيرها. تساعد أدوات تمثيل النصوص في هيئة سحابة كلامية على استعراض النص مع إعطاء وزن نسبي للكمات حسب معدلات تكرارها في النص. 

صورة من ملف التكويد، تستعرض كيفية التعرف على الكلمات الأكثر تكرارًا من خلال خوارزميات تعلم الآلة

  • علامات الترقيم

يميل الكثير من علماء البيانات عند معالجة النصوص إلى إزالة الضوضاء أولًا، أي التخلص من الرموز وعلامات الترقيم والكلمات غير المؤثرة في النص (Stop Words) لكنني أفضل الوقوف عندها أولًا قبل إزالتها فربما تسهل علينا استخراج عناصر مفيدة من النص، مثلًا قد توضع العبارات الهامة بين علامتي تنصيص، أو قد يتبع علامة @ بريد إلكتروني أو الاشارة إلى حسابات أحد الأشخاص على منصات التواصل الاجتماعي، كذلك علامات التعجب والاستفهام التي تدل على طرح الأسئلة أو العبارات الاعتراضية.

صورة من ملف التكويد، تستعرض كيفية التعرف على علامات الترقيم من خلال خوارزميات تعلم الآلة

في الختام، دعوني أستعرض معكم بعض من الأمثلة الملهمة التي ركزت على التنقيب في النصوص للوصول إلى معلومات جوهرية: تستعرض هذه الورقة البحثية كيف يمكن التنبؤ بنتائج الانتخابات الرئاسية عبر تحليل تغريدات المواطنين على منصة تويتر في فرنسا وإيطاليا، موضحة مدى التقارب بين ما تحتويه آراء المغردين ونتائج استطلاعات الرأي الجماهيرية التي تجرى عادة بالطريقة التقليدية لمعرفة توقعات المواطنين حول الانتخابات الرئاسية.

وفي ورقة بحثية أخرى، قام الباحثون بتحليل النصوص التي نشرت في الصحف والدوريات البريطانية على مدار 150 عامًا للوقوف على التغيرات التي حدثت في الحياة الثقافية والسياسية من خلال اختلافات اللغة.

تطبيق عملي: يمكن الوصول لملف التكويد، من هنا.

الصورة الرئيسة حاصلة على رخصة الاستخدام على أنسبلاش بواسطة مورغان ريشاردسون