Clear Sky Science · he

MnMR-GenA: אלגוריתם גנטי של רקומבינציה מורפולוגית להתקפות jailbreak בשפות עם משאבים נמוכים

2026-04-09 · חזרה לאינדקס

מדוע בטיחות טובה יותר בכל השפות חשובה

כאשר צ׳אוטבוטים רבי־עוצמה מתפשטים ברחבי העולם, אנשים משתמשים בהם במאות שפות, לא רק באנגלית או בסינית. עם זאת, בדיקות בטיחות רבות שמונעות תשובות מזיקות מכויילות על נתונים משפות שנחקרו היטב. המאמר שואל שאלה מדאיגה: האם יש נקודות תורפה נסתרות בשפות פחות נפוצות שבהן בקשות מזיקות עלולות לעבור בקלות יותר עבר ההגנות, ואם כן — כיצד חוקרים יכולים לחשוף נקודות עיוורון אלו כדי להפוך את המערכות לבטוחות יותר?

Figure 1. כיצד תוקפים מנצלים הגנות חלשות יותר בשפות פחות נפוצות כדי להטעות צ׳אטים של בינה מלאכותית ולהפיק מהם תגובות מסוכנות

סדקים נסתרים בבטיחות רב־לשונית של בינה מלאכותית

מודלים שפתיים גדולים לומדים מאוספי טקסט עצומים ומותאמים אחר כך כך שהם יימנעו ממתן עצות על פשע, שנאה או נושאים מסוכנים אחרים. אותה כוונון, עם זאת, חזק בדרך כלל בשפות עשירות במשאבים ובנתוני אימון רבים. בשפות עם משאבים נמוכים שכבת הבטיחות דקה הרבה יותר. עבודות קודמות הראו שתרגום פשוט של הוראה מזיקה מאנגלית לשפה כזו יכול להעלות את הסיכוי שהמודל ייתן תשובה לא בטוחה. המחברים מתמקדים בקבוצה מיוחדת של שפות, המכונות שפות אגולינטיביות (agglutinative), בהן מילים ארוכות נבנות על ידי שרשור של יחידות קצרות יותר — תכונה שמגדילה באופן ניכר את הדרכים שבהן בקשה מזיקה יכולה להיות מנוסחת.

מתרגום פשוט להתפתחות הוראות התקפה

רוב ההתקפות הקיימות מחולקות לשלוש קבוצות. חלקן מסתמכות על תבניות כתובות יד שמורות למודל "להעמיד פנים" או "להתעלם מהכללים" — תבניות שדורשות זמן ליצירה וקל לחברות לתקן. אחרות משתמשות בגישה ישירה לפנימיות המודל כדי לדחוף קלטים, אך אלה לעתים מייצרות מחרוזות חסרות משמעות שקל לגלאים לסמן. קבוצה שלישית מתייחסת למודל כקופסה שחורה ומשתמשת בחיפוש או באבולוציה כדי לשכתב הוראות, אך בדרך כלל רק ברמה בודדת, כגון משפטים שלמים, מה שמגביל יצירתיות ולעיתים שובר משמעות. התקפות מבוססות תרגום עובדות טוב יותר בשפות עם משאבים נמוכים, אך עדיין נשארות תלויות במבנה המקורי של ההוראה באנגלית ואינן מנצלות במלואן את הגמישות בבניית מילים שבשפות אגולינטיביות.

מנוע אבולוציוני להוראות ערמומיות

כדי להתגבר על מגבלות אלה, המחברים מפתחים את MnMR-GenA, מסגרת שמתייחסת לכל הוראת jailbreak מזיקה כאוכלוסיית וריאנטים חיה שמתפתחת עם הזמן. היא מתחילה מהוראות jailbreak מוכרות שתורגמו לשפות עם משאבים נמוכים כמו מונגולית, טורקית וגוארני, ואז משתמשת באלגוריתם גנטי לרקומבינציה ולמוטציה שלהן. באופן קריטי, האבולוציה הזו מתרחשת בשלוש רמות במקביל. ברמת המילה, מילים ארוכות מפוצלות לשורשים ולתוספים שמחוברים, ומסודרות מחדש לפי חוקים ספציפיים לשפה כדי ליצור מילים חדשות שנראות טבעיות. ברמת המשפט, מקטעים מוחלפים בין הוראות כדי לערבב את המשמעות תוך שמירה על תחביר. ברמת הפסקה, בלוקים המתארים מי מדבר, מה הוא עושה ובאיזו סיטואציה מוחלפים, ויוצרים תרחישים דמויי־סיפור שיכולים להסתיר כוונה מזיקה.

Figure 2. כיצד אבולוציה ורקומבינציה של קטעי הוראות בשפות עם משאבים נמוכים מעבירות כוונות מזיקות מעבר להגנות של הבינה המלאכותית

דירוג אילו הוראות באמת עוברות את הכללים

לא כל הוראה משוכתבת באמת מטעה את המודל, ולכן MnMR-GenA זקוקה לאופן למדידת הצלחה. המערכת שואלת את המודל היעד ושופטת שני היבטים בו־זמנית: עד כמה תשובת המודל עוקבת אחרי הכוונה המזיקה, והאם מופיע סימן של סירוב בתשובה, כגון ניסוח מתנצל. שני האותות האלה מתמזגים לציון יחיד שמנחה את האבולוציה לעבר הוראות יעילות יותר. סכמת בחירה חכמה שומרת על המועמדים הטובים ביותר בעוד שמאפשרת מקום גם לחלשות יותר שעשויות להכיל מוזרויות שימושיות. עוצמת המוטציה מכויילת לאורך זמן בחוק בסגנון חיזוק, כך שהדורות הראשונים חוקרים וריאנטים פראיים רבים, בעוד דורות מאוחרים מבצעים תיקונים מדודים סביב ההוראות המבטיחות ביותר.

מה הניסויים חושפים לגבי חולשות המודלים

הצוות בודק את MnMR-GenA על שני מודלים בקוד פתוח ומודל מסחרי בשימוש נרחב, באמצעות שתי אוספים ציבוריים של שאלות מסוכנות. בשלוש שפות עם משאבים נמוכים שיטתם מגיעה לשיעורי הצלחה של jailbreak בסביבות 80 אחוז, גבוה באופן מובהק ממספר בסיסים חזקים שגם הם מסתמכים על אבולוציה. היא עושה זאת ללא עלייה משמעותית במספר השאילתות למודל, מה שמראה שהחיפוש יעיל וגם חזק. גם כאשר המודלים עטופים בהגנות נוספות שמחפשות טקסט לא טבעי או מוסיפות רעש אקראי לקלטים, MnMR-GenA שומרת על שיעור הצלחה יחסית גבוה, מכיוון שההוראות שלה דמויות שפה רגילה ואינן תלויות בטריקים שבריריים על פני השטח.

מה המשמעות לבניית בינה מלאכותית בטוחה יותר

לעין הלא מקצועית, המסר ברור: מערכות בינה מלאכותית נוכחיות יכולות להיות קלות הרבה יותר להטעה בשפות שלא זכו למענה הולם מאשר באנגלית, וגנרטורים מתוחכמים של הוראות יכולים לחשוף בצורה שיטתית את נקודות התורפה הללו. MnMR-GenA מוצג ככלי לבחינת בטיחות ולא לשימוש פסול במציאות, אך הצלחתו מדגישה את הצורך הדחוף לחזק הגנות בכל השפות, לשים לב מיוחד למערכות בניית מילים מורכבות ולפתח כלי זיהוי טובים יותר שיכולים להתעדכן עם אסטרטגיות התקפה מתפתחות.

ציטוט: Li, Y., Wang, G. & Wang, H. MnMR-GenA: a morphological recombination genetic algorithm for jailbreak attacks in low-resource language. Sci Rep 16, 16113 (2026). https://doi.org/10.1038/s41598-026-47434-5

מילות מפתח: מודלים שפתיים גדולים, התקפות jailbreak, שפות עם משאבים נמוכים, בטיחות בינה מלאכותית, אלגוריתמים גנטיים