Clear Sky Science · he

החלפה דיאלקטאלית כגישה עוינת להערכת העמידות של עיבוד שפה טבעית בערבית

2026-01-22 · חזרה לאינדקס

מדוע הערבית היומיומית מבלבלת מחשבים חכמים

אפליקציות רבות כיום קוראות טקסטים בערבית כדי להעריך סנטימנט, למיין חדשות או לענות על שאלות. עם זאת, מערכות אלה לומדות בעיקר מערבית ספרותית מודרנית (MSA), בעוד שבפועל אנשים מערבבים מדי יום דיאלקטים אזוריים. מאמר זה מראה כיצד החלפת מילה אחת בלבד לערבית מצרית או אפס-מפרץית יכולה להטעות מודלים שפתיים מתקדמים, ומציבה דאגה לכל מי שמסתמך על בינה מלאכותית בערבית בשירות לקוחות, ניתוח מדיה או בטיחות מקוונת.

שפה אחת, קולות רבים

ערבית אינה דרך דיבור אחידה. ה‑MSA משמשת בבתי ספר, בעיתונות ובכתיבה רשמית, אך בשיחות יומיומיות נשענים על דיאלקטים כמו מצרי ומפרצי. הווריאנטים האלה שונים באוצר מילים, בצורה המילים ואף במבנה המשפט. למשל, מילה פשוטה כמו “עכשיו” מופיעה בצורה שונה מאוד באזורים שונים. עבור קוראים אנושיים הווריאציות הללו טבעיות וקלות להבנה. לעומת זאת, עבור מודלים שהוכשרו ברובם על MSA, מילים דיאלקטליות עלולות להיראות זרות ולהפוך משפט ברור למבלבל.

להפוך דיאלקטים למבחן לחץ עבור בינה מלאכותית

כדי לבדוק עד כמה מודלים לשוניים בערבית שבירים, המחבר מנסח מבחן פשוט בשני שלבים. ראשית, שואלים את המודל שוב ושוב כדי למצוא את המילה היחידה במשפט שמעצבת הכי הרבה את החלטתו — לעתים קרובות שם תואר בולט, פועל מרכזי או שם עצם נושא. שנית, אותה מילה מוחלפת במקבילה במצרית או במפרצי באמצעות מודל גדול ומתוחכם של “דיאלקטיזציה”. שאר המשפט נשאר ללא שינוי, והמשמעות נותרת זהה עבור קוראים אנושיים. כך נוצר דוגמה עוינת ריאליסטית: שינוי זעיר ומראה-טבעי שנועד להטעות את המערכת בלי לשנות את המסר המיועד.

מבחן חוות דעת על מלונות וסיפורי חדשות

המחקר תוקף ארבעה מודלים עמוקים מוכרים: שני מודלי טרנספורמר גדולים (AraBERT ו‑CAMeLBERT) ושני רשתות קטנות יותר (מודל קונבולוציוני ו‑LSTM דו‑כיווני). הם הוכשרו על שני מאגרי נתונים עיקריים ב‑MSA: חוות דעת על מלונות לניתוח סנטימנט ומאמרי חדשות לסיווג נושאים. מכל מערך מבחן נבחרו 1,280 דוגמאות והוחלה עליהן שיטת ההחלפה הדיאלקטלית. אף על פי שהשתנתה רק מילה אחת בכל משפט, ההשפעה משמעותית. בחוות דעת על מלונות, הדיוק של AraBERT צנח מ‑94 אחוז על טקסט נקי לכ‑72 אחוז עם החלפות מפרציות ולכ‑65 אחוז עם החלפות מצריות. CAMeLBERT ירד אף יותר, לכ־63 ולכ־55 אחוז בהתאמה. גם מסווגי חדשות ניזוקו: המודל הקונבולוציוני איבד כ־18–22 נקודות אחוז, וה‑LSTM הראה ירידות דומות.

מה משתבש בתוך המודלים

מבט מקרוב מגלה שהמילים הפגיעות ביותר תואמות את האופן שבו אנשים קוראים טקסט. בחוות דעת על מלונות כמעט חצי מהמילים הממוקדות הן שמות תואר כמו “טוב” או “נורא”, הנושאות משקל רגשי ברור. במאמרי חדשות, רוב המילים שנבחרו הן שמות עצם ושמות שמצביעים על נושאים כמו פוליטיקה, ספורט או כלכלה. כאשר מילים מעוררות אלה מוחלפות לצורות דיאלקטליות, מודלים שהוכשרו רק על MSA לעתים קרובות מתקשים לזהותן. מודלי טרנספורמר נראים שבירים במיוחד: התלות שלהם בחתיכות תת‑מילה ובתשומת לב לכמה טוקנים כבדים הופכת מילה דיאלקטלית אחת מספיקה להפוך את התחזית. מודלים קטנים יותר, שמפזרים תשומת לב יחסית יותר ברחבי המשפט, עדיין מטעים אך מעט עמידים יותר.

מצרי מול מפרצי: לא כל הדיאלקטים שווים

ההתקפות מראות גם שמצרית נוטה להפיל מודלים יותר מאשר דיאלקטים מפרציים. מחקרים לשוניים תומכים בכך: הווריאנטים המפרציים נשארים לעתים קרובות קרובים יותר ל‑MSA באוצר מילים ובמבנה, בעוד שהמצרית ספגה צורות מובחנות יותר בהיסטוריה ובמגע עם שפות אחרות. כתוצאה מכך, החלפות מפרציות לפעמים דומות מספיק למקור ב‑MSA שהמודל עדיין מסוגל להתמודד עמן, בעוד שהחלפות מצריות סביר שיהיו מחוץ למה שהמודל ראה קודם. בדיקות סטטיסטיות מאשרות כי הירידות בביצועים אינן מקריות — הן משקפות נקודות עיוורון שיטתיות באופן שבו מערכות עכשוויות מטפלות בדיגלוסיה הערבית.

מה המשמעות עבור בינה מלאכותית בערבית

למשתמשים יום‑יומיים, המסקנה פשוטה: בינה מלאכותית בערבית של היום יכולה להתבלבל בקלות ממילים דיאלקטליות רגילות, גם כשאנשים מוצאים את הטקסט ברור לחלוטין. מונח דיאלקטלי אחד בחוות דעת על מלון יכול להפוך שיפוט של המודל מחיובי לשלילי, או לתייג שגוי את נושא הכתבה. לחוקרים ומפתחים המסר הוא קריאה לבנות מערכות "מודעות לדיגלוסיה" שמאומנות גם על MSA וגם על דיאלקטים אזוריים, ולהשתמש במבחני לחץ ריאליסטיים כאלו כשבודקים עמידות. עד אז, כל יישום שמניח "ערבית היא רק MSA" מסתכן באי הבנות משמעותיות בשטח.

ציטוט: Alshemali, B. Dialectal substitution as an adversarial approach for evaluating Arabic NLP robustness. Sci Rep 16, 5996 (2026). https://doi.org/10.1038/s41598-026-36252-4

מילות מפתח: עיבוד שפה טבעית בערבית, שונות דיאלקטלית, דוגמאות עוינות, ניתוח סנטימנט, סיווג טקסט