Clear Sky Science · he

מאגר חדשות רב-לשוני על אוקראינה (2022–2025): איסוף נתונים ותיעוד

· חזרה לאינדקס

מדוע אוסף החדשות הזה חשוב

מיום הפלישה המלאה של רוסיה לאוקראינה ב־2022, המלחמה נלחמת לא רק על הקרקע אלא גם על המסכים והפידים החברתיים. מה שאנשים ברחבי העולם קוראים על העימות מעצב את האופן שבו הם מבינים אותו, את מי הם סומכים עליו, ואיזה צד הם תומכים. מאמר זה מציג אוסף גדול ומסודר בקפידה של ידיעות מקוונות על אוקראינה בין 2022 ל־2025, שנועד לסייע לחוקרים לחקור את שדה המידע הזה ולפתח כלים טובים יותר לזיהוי טענות מטעות.

Figure 1
Figure 1.

האתגר של האמת בזמן מלחמה

המחברים מתחילים בהצגת האופן שבו המלחמה השחררה גל של תעמולה וסיפורים שקריים. כלי תקשורת ממשלתיים רוסיים ורשתות מקוונות קידמו טענות חוזרות על כך שיש בואכה אוקראינה "נאצים חדשים", על מעבדות סודיות או על פשעים מזויפים. במקביל, בודקי עובדות וחוקרים הראו שגם כאשר אנשים מתוקנים בהצלחה לגבי מיתוסים ספציפיים, עמדותיהם הפוליטיות הרחבות לרוב נשארות ללא שינוי. מחקרים ברחבי מזרח אירופה ומעבר לה מראים כי אמונה בתיאוריות קונספירציה לגבי COVID-19 לעתים קרובות הולכת יד ביד עם אמון בסיפורים פרו‑קרמליניים על המלחמה, במיוחד אצל אלה שמטילים ספק בתקשורת המיינסטרים ובממשלות ומעדיפים מרחבי מידע חלופיים.

כיצד החדשות מעצבות את ההבנה הציבורית

כיסוי החדשות של המלחמה נראה שונה מאוד בהתאם למקום. מחקרים השוואתיים מגלים שכלי תקשורת אוקראיניים ומערביים נוטים להדגיש את הסבל האנושי וההתנגדות, בעוד שהתקשורת הרוסית מתארת את האויב כמפלצתי ואת פעולותיה שלה כמוצדקות. באזורים באסיה ובדרום הגלובלי, הכיסוי עשוי להתמקד יותר במאבקי כוח גלובליים או בתפקיד נאט"ו מאשר באזרחים. זוויות שונות אלה משפיעות על הדרך שבה קהלים מקומיים תופסים את הסכסוך ואת השחקנים המעורבים. על רקע זה, זמינות מקור חדשות שקוף ומשותף הופכת להיות חיונית להבנת אילו נושאים שולטים בכיסוי וכיצד הנרטיבים משתנים לאורך הזמן.

בניית מאגר משותף של כתבות חדשות

כדי לענות על הצורך הזה, המחברים יצרו מאגר רב־לשוני של 120,617 כתבות חדשות הקשורות לאוקראינה, שפורסמו בין 2022 ל־2025. הם תכננו צינור אוטומטי שבכל יום בתקופה הנבחרת בונה כתובות אתרי אינטרנט, מוריד דפי חדשות ומחלץ כותרות ומלל מלא של הכתבות. כאשר כתבות מופיעות בשפות אחרות, שלב תרגום מכונה מייצר גרסאות באוקראינית כדי לאפשר השוואה נוחה יותר של החומר. לכל פריט מוקצה נושא רחב באמצעות כללי מילות מפתח (למשל, האם הכתבה מתמקדת במנהיגי אוקראינה, במצב הפנימי של רוסיה או בתגובות בינלאומיות). התוצאה הסופית היא טבלה גדולה שבה כל שורה מייצגת כתבה וכוללת את הקישור שלה, תאריך, הטקסט המקורי, טקסט מתורגם כשזמין, ותווית נושא גסה.

איך המאגר נראה

האוסף נשלט על ידי מקורות ושפה אוקראיניים, מה שמשקף את מוקד מאמצי הצוות ואת המרכזיות של כלי תקשורת אוקראיניים בכיסוי המלחמה. רוב הכותרות והטקסטים הראשיים הם באוקראינית, עם חלקים קטנים ברוסית, באנגלית ובכמה שפות אירופיות. אורכי הכתבות משתנים במידה רבה — מעדכונים קצרים ועד כתבות אנליטיות ארוכות מאוד — אם כי כתבות חדשות טיפוסיות נופלות בטווח של כמה אלפי תווים. החלק הגדול ביותר של הכתבות עוסק באופן שבו אוקראינה מופיעה במרחב המידע של הפדרציה הרוסית, ואחריו כיסוי על ההנהגה הפוליטית והצבאית של אוקראינה ודיווחים על המצב הפנימי של רוסיה. המאגר מאוחסן בקובץ מופרד פסיקים פשוט כדי שניתן יהיה לטעון אותו באמצעות כלי ניתוח נפוצים ללא תוכנה מיוחדת.

Figure 2
Figure 2.

בדיקות איכות והמגבלות

כיוון שאוסף זה נועד לשמש בסיס מחקרי ולא ניתוח גמור, המחברים מדגישים בדיקות טכניות זהירות. הם הסירו כתבות שלדפי האינטרנט שלהן לא ניתן היה להיטען או שהיו כפילויות מדויקות. הם אימתו שתוויות השפה הגיוניות בבדיקות נקודתיות, בדקו ערכים חסרים והבטיחו שטקסטים מתורגמים על ידי מכונה שלמים. במקביל, הם מדגישים שהתוויות הנושאיות הן רק קווים מנחים גסים המבוססים על מילות מפתח, ולא שיפוטים מומחים מוחלטים על משמעותה "האמיתית" של כל כתבה. כמו כן, הם לא נקטו בתיקון שגיאות תרגום, שעשויות להיות משמעותיות בפסקאות רגישות פוליטית.

מה זה פותח לעתיד

עבור הלא־מומחים, המסקנה המרכזית היא שהפרויקט מספק מפה ציבורית ושימושית של האופן שבו נכתבו חדשות על אוקראינה במהלך כמה מהשנים הסוערות ביותר בהיסטוריה המודרנית שלה. עיתונאים, מדעי החברה ומדעני המחשב יכולים כולם להיעזר באותו מאגר משותף של סיפורים כדי לחקור הטיית תקשורת, לעקוב אחר התפשטות נרטיבים מטעות או לאמן טכנולוגיות לשוניות שעוזרות לסמן תוכן חשוד. על ידי תיעוד תהליך האיסוף בפירוט והפיכת הנתונים והקוד לזמינים באופן פתוח, המחברים שואפים לתמוך בעבודה שקופה ורפרודוסבילית על מלחמת מידע ולחזק בסופו של דבר את יכולת החברה לעמוד בפני מניפולציה בזמני משבר.

ציטוט: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

מילות מפתח: מדיה מלחמת אוקראינה, תעמולה ומידע כוזב, מאגר חדשות, עיתונאות רב-לשונית, מלחמת מידע