Clear Sky Science · he

מערכת אלגוריתמית לזיהוי חדשות מזויפות בערבית באמצעות רשתות נוירונים והטמעות Transformer עם משקל דרגות כיתות

2026-04-13 · חזרה לאינדקס

מדוע חשוב לזהות סיפורים שקריים ברשת

בעולם המחובר של היום, כותרת דרמטית בערבית יכולה לעבור מדף פייסבוק לא ידוע למיליוני טלפונים תוך דקות. חלק מהסיפורים האלה הם זיופים מתוכננים היטב שיכולים להסיט דעת קהל, לעוות בחירות או ליצור חוסר אמון במוסדות. עם זאת, רוב הכלים האוטומטיים לזיהוי חדשות מזויפות נבנו עבור אנגלית. המחקר הזה מתמודד עם הפער על־ידי תכנון ובחינת מערכת יעילה שיכולה לסמן מאמרי חדשות מטעות בערבית ברמת דיוק המתקרבת לזו של בודקי עובדות אנושיים.

בניית תמונה מציאותית של חדשות בערבית

כדי לשקף את המציאות הלא מסודרת של המידע ברשת, החוקרים אספו תחילה אוסף מעורב גדול של 7,474 מאמרי חדשות בערבית שפורסמו בין 2015 ל‑2025. הטקסטים הגיעו מחדרי חדשות מהימנים, בלוגים לא מאומתים ופוסטים ברשתות החברתיות, וכן מדגימות מתורגמות ממאגרי חדשות מזויפות באנגלית ידועים. כל פריט תוייג כאמיתי או מזויף באמצעות בדיקות צולבות קפדניות מול מקורות רשמיים ופלטפורמות בדיקת עובדות בערבית. תת־קבוצה נבדקה בשנית על ידי שלושה מומחים, וההסכמה החזקה ביניהם נתנה ביטחון שהתיוגים אמינים. מערך הנתונים הסופי משקף את העובדה שסיפורים מזויפים בפועל נדירים יחסית לעומת דיווחים אמיתיים — חוסר איזון בכיתות שמסבך לעיתים גלאים אוטומטיים.

לימוד מכונות "קוראות" ערבית באמת

במקום להסתמך על ספירות מילים פשוטות, הצוות פנה למשפחת מודלי שפה מודרנית שנקראת Transformers, שמסוגלת ללכוד משמעות מתוך הקשר. הם השתמשו במודל ערבי הידוע בשם CAMeLBERT, שאומן במיוחד על ערבית תקנית מודרנית, כקורא מתוחכם. כל מאמר הועבר דרך צנרת עיבוד מקדמי מיוחדת שניקתה אימוג'ים, קישורים ותווים רעשניים תוך שמירה על הדקויות הלשוניות החשובות בערבית. CAMeLBERT המר– כל מאמר מנוקָה לטביעת אצבע מספרית צפופה שתופסת גוונים עדינים של משמעות, סגנון ומבנה. טביעות אלה הוזנו לרשת נוירונים עמוקה קומפקטית שלומדת דפוסים המבדילים בין חדשות אמיתיות למזויפות.

תיקון חוסר האיזון בין אמיתי למזויף

אתגר מרכזי היה שמאמרי חדשות אמיתיים עולים על המזויפים במערך הנתונים, כפי שקורה גם בחיי היומיום. אם לא יתוקן הדבר, המודל ינקוט באסטרטגיה שמרנית וייעריך את רוב הסיפורים כאמיתיים, ויפספס זיופים מסוכנים. רבים מהמחקרים הקודמים ניסו לתקן זאת על ידי שיכפול דוגמאות נדירות של זיוף, יצירת דוגמאות סינתטיות או השלכת חלק מהמאמרים האמיתיים, אך תחבולות אלה יכולות להוסיף רעש או לשלול מידע שימושי. במקום זאת, עבודה זו התמקדה בפתרון ברמת האלגוריתם שנקרא משקל כיתה (class weighting). במהלך האימון, טעויות על מאמרים מזויפים מותקנות כ"יקרות" יותר עבור המודל מאשר טעויות על מאמרים אמיתיים. מבלי לשנות את הנתונים עצמם, גישה זו דוחפת את הרשת הנוירונית לשים דגש נוסף על כיתת המזויפים המיעוט ולשרטט גבול מאוזן יותר בין סיפורים אמיתיים לשקריים.

הערכת המערכת במבחן השדה

החוקרים השוו מספר גישות: מודלים מסורתיים של למידת מכונה שהשתמשו בתכונות מבוססות ספירת מילים, אותה רשת נוירונית שהוזנה על‑ידי מודלי Transformer ערבים שונים, וה‑Transformer הטוב ביותר בשילוב עם אסטרטגיות איזון שונות. CAMeLBERT עלה כעמוד שדרה החזק ביותר בין מודלי ה‑Transformer הערביים, ועלה על חלופות כמו AraBERT, MARBERTv2 ו‑AraELECTRA. כשהוא משולב עם משקל כיתות, המערכת מבוססת CAMeLBERT סיווגה נכונה חדשות בערבית בדיוק של כ‑95.5% וציון F1 — איזון בין דיוק לזיהוי — של כ‑96.2%. לא פחות חשוב, המערכת המתואמת צמצמה במידה רבה את השגיאה המדאיגה ביותר: זיופים שזוהו בטעות כאמיתיים. כדי לפתוח את "הקופסה השחורה", הצוות גם השתמש בכלי הסבר מודרניים (LIME ו‑SHAP) שמגלים אילו רמזים לשוניים ודפוסים בייצוגים הפנימיים של המודל נוטים לדחוף מאמר לכיוון החלטה מזויפת או אמיתית.

מה המשמעות עבור הקוראים ביום־יום

מנקודת מבט של קורא פשוט, המחקר מראה שניתן לאמן מכונות לקרוא חדשות בערבית באופן מפתיע בניואנסים, לזהות רמזים סגנוניים וקונטקסטואליים עדינים שלרוב מבדילים פוסטים מחושבים מדיווח מקצועי. בשילוב מודל שפה המותאם לערבית תקנית מודרנית עם אסטרטגיית אימון המתחשבת בהוגנות, הכותבים מספקים גלאי שהוא גם מדויק וגם קל‑משקל יחסית — מתאים לשילוב בפלטפורמות בדיקת עובדות, חדרי חדשות וכלי ניטור ברשתות החברתיות. למרות שאינו מחליף שיקול אנושי, המערכת מציעה בסיס חזק לבדיקה אוטומטית של עובדות בערבית, מסייעת להאטת התפשטות מידע מטעה ותומכת בסביבה מידעית בריאה יותר בעולם הדובר ערבית.

ציטוט: Saad, M., Abdelrazek, S. & Abdelmaksoud, I.R. An algorithmic system for arabic fake news detection using neural networks and transformer embeddings with class weighting. Sci Rep 16, 12226 (2026). https://doi.org/10.1038/s41598-026-45653-4

מילות מפתח: חדשות מזויפות בערבית, מודלי Transformer, רשתות נוירונים, חוסר איזון בכיתות, מערכות בדיקת עובדות