Clear Sky Science · ar

مجموعة بيانات إخبارية متعددة اللغات عن أوكرانيا (2022–2025): جمع البيانات والتوثيق

· العودة إلى الفهرس

لماذا تهم هذه المجموعة الإخبارية

منذ الغزو الشامل الروسي لأوكرانيا في 2022، لم تجرِ الحرب فقط على الأرض بل أيضاً على الشاشات وتغذيات التواصل الاجتماعي. ما يقرأه الناس حول العالم عن الصراع يشكّل فهمهم له، ومن يثقون به، وأي جانب يدعمونه. تقدم هذه المقالة مجموعة كبيرة ومنظَّمة بعناية من الأخبار الإلكترونية عن أوكرانيا من 2022 حتى 2025، مصممة لمساعدة الباحثين على دراسة ساحة المعركة المعلوماتية هذه وبناء أدوات أفضل لكشف الادعاءات المضللة.

Figure 1
الشكل 1.

تحدي الحقيقة في زمن الحرب

يبدأ المؤلفون بتوضيح كيف أشعلت الحرب موجة من الدعاية والقصص الخاطئة. دفعت وسائل الإعلام الرسمية الروسية وشبكات إلكترونية مزاعم متكررة عن «النازيين الجدد» المزعومين في أوكرانيا، أو مختبرات سرية، أو جرائم حرب مفبركة. وفي الوقت نفسه، أظهر المدققون والباحثون أنه حتى عندما يُصحَّح الناس بشأن خرافات محددة، فإن مواقفهم السياسية الأوسع غالباً ما تبقى دون تغيير. تكشف دراسات في شرق أوروبا وما بعدها أن الإيمان بنظريات المؤامرة حول كوفيد-19 غالباً ما يسير جنباً إلى جنب مع الإيمان بالسرديات المؤيدة للكرملين حول الحرب، خاصة بين من لا يثقون بالإعلام السائد والحكومات ويفضلون فضاءات معلومات بديلة.

كيف يشكل الخبر الفهم العام

يبدو التغطية الإخبارية للحرب مختلفة تماماً اعتماداً على الموقع. وجدت أبحاث مقارنة أن المنافذ الأوكرانية والغربية تميل إلى إبراز المعاناة البشرية والمقاومة، بينما تصور وسائل الإعلام الروسية العدو بوصفه وحشياً وأفعالها بأنها مبررة. في أجزاء من آسيا والجنوب العالمي قد تركز التغطية أكثر على صراعات القوى العالمية أو دور الناتو بدل المدنيين. تؤثر هذه الزوايا المختلفة في كيفية رؤية الجماهير المحلية للصراع والجهات الفاعلة. وفي هذا السياق، يصبح وجود مصدر شفاف ومشترك للمقالات الإخبارية أمراً أساسياً لفهم أي الموضوعات تهيمن على التغطية وكيف تتغير السرديات عبر الزمن.

بناء قاعدة مشتركة من المقالات الإخبارية

للاستجابة لهذا الاحتياج، أنشأ المؤلفون مجموعة بيانات متعددة اللغات تضم 120,617 مادة إخبارية متعلقة بأوكرانيا، نُشرت بين 2022 و2025. صمموا أنبوب معالجة آلي يقوم، لكل يوم في الفترة المختارة، ببناء عناوين مواقع الويب، وتنزيل صفحات الأخبار، واستخراج عناوين المقالات ونصوصها الكاملة. عندما تظهر المقالات بلغات أخرى، تنتج خطوة ترجمة آلية نسخاً باللغة الأوكرانية حتى يمكن مقارنة المواد بسهولة أكبر. ثم يُنسب كل عنصر إلى موضوع عام باستخدام قواعد كلمات مفتاحية (مثل ما إذا كانت القصة تركز على قادة أوكرانيا، أو الوضع الداخلي في روسيا، أو ردود الفعل الدولية). النتيجة النهائية هي جدول كبير حيث تمثل كل صف مقالة واحدة ويتضمن رابطها وتاريخها والنص الأصلي والنص المترجم عند توفره وتسمية موضوعية تقريبية.

كيف تبدو مجموعة البيانات

تهيمن المصادر واللغة الأوكرانية على المجموعة، ما يعكس تركيز الفريق ومركزية المنافذ الأوكرانية في تغطية الحرب. معظم العناوين والنصوص الرئيسية بالأوكرانية، مع حصص صغيرة بالروسية والإنجليزية وعدة لغات أوروبية. تتباين أطوال المقالات كثيراً — من تحديثات موجزة إلى مقالات تحليلية طويلة — على أن القصص الإخبارية النموذجية تقع ضمن نطاق بضعة آلاف من الأحرف. تتناول أكبر حصة من المقالات كيف تظهر أوكرانيا في الفضاء المعلوماتي للاتحاد الروسي، تليها تغطية لقيادة أوكرانيا السياسية والعسكرية وتقارير عن الوضع الداخلي الروسي نفسه. تُخزن مجموعة البيانات في ملف بسيط مفصول بفواصل بحيث يمكن تحميله بأدوات تحليل شائعة دون برامج خاصة.

Figure 2
الشكل 2.

التحقق من الجودة والحدود

بما أن هذه المجموعة تُعد أساساً بحثياً أكثر منها تحليلاً مكتملًا، يؤكد المؤلفون على فحوص فنية دقيقة. أزالوا المقالات التي تعذر تحميل صفحاتها أو التي كانت مكررة تماماً. تحققوا من معقولية تسميات اللغات عبر فحوص عشوائية، وفحصوا القيم المفقودة، وضَمِنوا اكتمال النصوص المترجمة آلياً. وفي الوقت نفسه، يشددون على أن تسميات الموضوعات مجرد دلائل تقريبية مبنية على كلمات مفتاحية، وليست أحكاماً خبرية حاسمة عما تعنيه كل مقالة «فعلاً». وبالمثل، لم يحاولوا تصحيح أي أخطاء ترجمة، والتي قد تكون ذات شأن في مقاطع حساسة سياسياً.

ما الذي يفتحه هذا للمستقبل

لغير المتخصصين، الخلاصة الأساسية هي أن هذا المشروع يوفر خريطة عامة قابلة لإعادة الاستخدام توضح كيف كُتِبت أخبار أوكرانيا خلال بعض أكثر سنواتها اضطراباً في تاريخها الحديث. يمكن للصحفيين وعلماء الاجتماع وعلوم الحاسوب الاستفادة من نفس مجموعة المقالات لدراسة تحيّز وسائل الإعلام، وتتبع انتشار السرديات المضللة، أو تدريب تقنيات لغوية تساعد في تمييز المحتوى المريب. من خلال توثيق عملية الجمع تفصيلياً وإتاحة كل من البيانات والتعليمات البرمجية بشكل مفتوح، يهدف المؤلفون إلى دعم أعمال شفافة وقابلة للتكرار حول حرب المعلومات وفي نهاية المطاف لتعزيز قدرة المجتمع على الصمود أمام التلاعب في أوقات الأزمة.

الاستشهاد: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

الكلمات المفتاحية: إعلام حرب أوكرانيا, معلومات مضللة, مجموعة بيانات إخبارية, صحافة متعددة اللغات, حرب معلومات