Clear Sky Science · he

לימוד מודע-הזיות ואופטימיזציית השהיה במטמפלר (HALL-OPT) למודיעין קצה בזמן אמת

2026-03-05 · חזרה לאינדקס

מדוע חשובה בינה מלאכותית מהירה ואמינה יותר

התקנים יומיומיים נעשים חכמים בשקט, מחיישנים במפעלים ומוניטורים בבתי חולים ועד מכוניות ומכשירי בית. רבים מהמערכות האלה מסתמכות על מודלי שפה — אותו סוג של בינה מלאכותית שמאחורי צ׳אטבוטים מודרניים — כדי לקרוא הוראות, לענות על שאלות או לתמצת דוחות. אך שתי בעיות מעכבות את השימוש: מודלים אלה איטיים וזקוקים להרבה אנרגיה, ולעתים הם "ממציאים" הצהרות משכנעות אך שקריות. המאמר מציג את HALL-OPT, עיצוב מחדש של מודלים מבוססי מטמפלר שמטרתו להפוך אותם למהירים ואמינים יותר, כדי שיוכלו לפעול בבטחה על התקני קצה קטנים וחסכוניים במקום בנתונים מרוחקים.

האתגר של התקנים חכמים בקצה

רוב מודלי השפה בעלי הביצועים הגבוהים חיים בענן, שם הם יכולים להשתמש בכוח חישוב רב. זה מקשה על השימוש בהם במצבים שבהם החלטות מהירות קריטיות וקשרי רשת אינם מושלמים או יקרים, כמו בכלי רכב אוטונומיים, רובוטים תעשייתיים או מכשירי רפואת מיטה. כאשר מערכות כאלה שולחות נתונים לענן וממתינות לתשובה, עיכובים של אפילו כמה מאות מילישניות עלולים להיות בלתי מתקבלים. בו זמנית, מודלים קלים שמתאימים להתקנים בקצה לעיתים מגיבים מהר יותר אך נוטים יותר להמציא עובדות או לפרש מידע באופן שגוי. המחקר מראה שזה יוצר פשרה: הימנעות מהזיות בדרך כלל מלווה בעיכוב רב, בעוד שעיכוב נמוך לעיתים משמעותו יותר הזיות — דבר שיוצר פער עבור מודיעין קצה בזמן אמת ואמין.

עיצוב מאוחד במקום תיקונים מפוצלים

מחקר קיים נוטה להתייחס לאמינות ויעילות כשני יעדים נפרדים. שיטות מסוימות מתמקדות בזיהוי הזיות על ידי בדיקת תשובות מול מאגרי חיצוניים או הרצת מספר מעברי מודל, מה שמוסיף זמן ושימוש באנרגיה. שיטות אחרות מקטינות מודלים בעזרת גיזום, קוונטיזציה או זיקוק ידע, מה שהופך אותם למהירים יותר אך לעתים פחות מדויקים ופחות אמינים. HALL-OPT בוחרת בגישה שונה: היא משזרת מודעות להזיות ישירות בתוך מבנה המודל ומשתמשת באותה אינפורמציה כדי להחליט מה לחשב ומה לדלג עליו. במקום להוסיף בדיקות חיצוניות או לקצץ ברשת באופן עיוור, היא מתאמת אמינות ומהירות במסגרת אחת המותאמת לחומרת קצה.

כיצד המערכת מסננת תכנים מסוכנים

בלב HALL-OPT יש מודול תשומת לב מודעת-הזיות שמנטר כיצד המודל מפזר את המיקוד בין מילים וכמה ביטחון יש לו בתחזיותיו. כאשר תשומת הלב מפוזרת, הביטחון נמוך, או משמעותו של טוקן מתנגשת עם ההקשר שסביבו, ניתן לטוקן ציון "סיכון" גבוה יותר. גלאי דו-זרמי מסמן אז את החלקים המסוכנים האלה כפוטנציאל להזיות. המודל משתמש באותות אלה כדי להניע שלב גיזום דינמי: טוקנים שהם גם בעלי ערך נמוך וגם בעלי סיכון גבוה מוסרים, בעוד שטוקנים חשובים ואמינים נשמרים. זה מצמצם את מספר האלמנטים שהמודל צריך לעבד בכל שכבה, חותך את העלות הריבועית הכבדה של תשומת לב מבלי לאבד את המשמעות הליבתית של הטקסט.

כיווץ מודל גדול לחבילה קטנה ויעילה

כדי לדחוס התנהגות חזקה לחבילה קטנה יותר, HALL-OPT מיישמת זיקוק ידע, שבו "מורה" גדול מאמן "תלמיד" קומפקטי. בניגוד לזיקוק סטנדרטי, התלמיד לומד לא רק להתאים לתשובות המורה אלא גם לחקות את תחושתו מתי הפלטים עלולים להיות שגויים. אימון נוסף מנסח בעדינות את התלמיד להימנע מתחזיות בטוחות יתר הנוטות להזיות. לבסוף, שכבת אופטימיזציית קצה מכינה את המודל לאריתמטיקה ברזולוציה נמוכה, הופכת את המשקולות לערכי 8 סיביות ומארגנת מחדש חישובים כדי להתאים להתקני קצה אמיתיים כמו לוחות NVIDIA Jetson ו-TPU של Google Coral. הצירוף הזה שומר על רוב הדיוק המקורי תוך שהוא מקטין בצורה חדה את השימוש בזיכרון, בצריכת האנרגיה וזמני התגובה.

השפעה מעשית על מהירות, אנרגיה ובטיחות

בדיקות על שני בוחנים תובעניים — אחד לשאלות ותשובות עם שאלות בלתי ניתנות למענה במכוון, ואחר לתמצות חדשות — מראות ש-HALL-OPT מזהה הזיות בדיוק של כ-94% ושומר על ביצועי המטלה קרובים למודל BERT סטנדרטי. במקביל, הוא מקצר את השיהוי של ההסקה בכ־שני שלישים ומפחית את צריכת האנרגיה בכ־40% או יותר בממוצע על עומסי עבודה ריאליסטיים. על התקני קצה, הוא לעתים מגיב בפחות מ-50 מילישניות ומשתמש בזיכרון פחות באופן משמעותי. מבחני עומס על פלטפורמות רבות ותסריטים בסגנון תעשייתי, ממפעלים חכמים עד מוניטורים רפואיים, מאשרים שהמערכת שומרת על תזמון צפוי ושיעור "הסקות לכל וואט" נוח, מה שהופך אותה מתאימה לשימוש רציף בזמן אמת.

מה משמעות הדבר לבינה מלאכותית יומיומית

ללא מומחים, המסר המרכזי הוא שאיננו צריכים לבחור בין בינה מהירה לבין בינה אמינה על מכשירים קטנים. על ידי כך שהמודל לומד לזהות את נקודות החולשה שלו ומאפשר למודעות הזו להנחות כמה הוא מחשב, HALL-OPT מספק תשובות שהן גם מהירות וגם פחות סבירות להמצאה. זה הופך אותו לעמוד שדרה מבטיח עבור יישומי קצה עתידיים שבהם תשובות שגויות או תגובות איטיות עלולות לגרום לתוצאות חמורות, כמו ניווט כלי רכב, שליטה במכונות תעשייתיות או סימון שינויים קריטיים במצבו של מטופל.

ציטוט: Algawiaz, D. Hallucination-aware learning and latency optimization transformer (HALL-OPT) for real-time edge intelligence. Sci Rep 16, 12245 (2026). https://doi.org/10.1038/s41598-026-42981-3

מילות מפתח: AI בקצה, זיהוי הזיות, מודלי מטמפלר, הסקה בזמן אמת, חישוב חסכוני באנרגיה