Clear Sky Science · he

מודל שפה לטנזורים מאפשר תזמון גנרטיבי לקימפול טנזורים יעיל

2026-05-19 · חזרה לאינדקס

מדוע כלים מהירים יותר ל-AI חשובים

כאשר הבינה המלאכותית נעשית חזקה יותר, אימון והרצה של רשתות עצביות גדולות עשויים לגזול כמויות עצומות של זמן וחשמל. מאחורי הקלעים, תוכניות מיוחדות הנקראות קומפיילרים ממירות מודלים ברמה גבוהה להוראות נמוכות עבור שבבים כמו CPU ו-GPU. המאמר הזה מציג גישה חדשה שעושה את התרגום הזה הרבה יותר מהר וכמעט באותה יעילות כמו שיטות מכווננות היטב של יד, באמצעות רעיונות שנלקחו ממודלי שפה מודרניים.

Figure 1. מודל שפה לומד מתוכניות טנזורים כדי למפות במהירות מודלי בינה מלאכותית על חומרה ולזרז את הקימפול.

העבודה המוסווית של קומפיילרים ל-AI

מודלים של למידה עמוקה נשענים על פעולות נתונים שחוזרות על עצמן, כגון כפל מטריצות גדולות או החלקת פילטרים על תמונות. פעולות אלה ממומשות כתוכניות נמוכות־רמה קטנות הנקראות תוכניות טנזורים. כדי לפעול היטב על חומרה שונה, כל תוכנית טנזור צריכה להיות מסודרת בקפידה: לולאות נחוצות לפירוק לפסים (tiling), חלוקת עבודה בין ליבות, ופריסת נתונים בזיכרון כדי לאפשר גישה מהירה. כלים אוטומטיים קיימים או מחפשים בתוך מרחב עצום של אפשרויות—תהליך שיכול לקחת שעות או ימים—או מסתמכים על כללים נוקשים שמקמבלים במהירות אך עלולים להשאיר הרבה ביצועים שלא ממומשים.

הפיכת תזמון למשימת שפה

המחברים מציעים מסגרת בשם מודל השפה לטנזורים (TLM) המטפל בבעיה של סידור תוכניות הטנזורים כאילו זו כתיבת משפט. הם מעצבים “שפת טנזורים” קומפקטית שבה כל טוקן מקודד מידע על הפעולה, החומרה ובחירת תזמון. מודל בסגנון GPT-2 מאומן על מיליוני משפטי טנזורים אלה, ולומד דפוסים שמקשרים בין אופרטורים וסביבות חומרה לתזמונים יעילים. במקום לחפש בין אפשרויות רבות בזמן קימפול, ה-TLM מייצר תזמון טוב אחד במעבר יחיד, בדומה לחיזוי המילה הבאה במשפט.

איך המערכת בנויה

המסגרת כוללת שני חלקים עיקריים. בונה מרחב (Space Builder) בוחן מודל AI, מפרק אותו לתת־גרפים קטנים יותר ובונה את טווח האפשרויות החוקיות של תזמונים לכל חלק, מבלי לפסול בחירות מבטיחות. מרחב זה מועמד לקידוד למשפטי טנזורים. מחולל (Generator), מונע על ידי ה-TLM המאומן, קורא את המשפטים הללו יחד עם רמזי חומרה ומוציא רצף של החלטות תזמון. מכיוון ששפת הטנזורים מעוצבת בקפידה, כל רצף שנוצר תואם לתוכנית נמוכה־רמה חוקית שיכולה להיות מומרת לקוד ניתן לביצוע על ידי backend קומפיילר קיים.

מה מראים הניסויים

החוקרים אימנו את ה-TLM על תוכניות טנזורים שנלקחו ממודלים פופולריים בתחום הראייה והשפה, כולל ResNet-50, MobileNetV2, EfficientNet, BERT, GPT-2 ו-LLAMA-7B. לאחר מכן השוו אותו לכלי קימפול מבוססי חיפוש מובילים כמו Ansor ו-MetaSchedule, וכן למערכת היוריסטית מהירה בשם Roller. על פני מטלות בדיקה רבות, ה-TLM ייצר תוכניות שהזמן הריצה שלהן תאם או עקב במעט אחרי הכלים מבוססי־החיפוש, ובאותו זמן קימפל מהר עד כ-61 פעמים יותר מהר. בהשוואה ל-Roller, הוא קימפל בזמן דומה או קצר יותר אך הריץ מודלים עד בערך 1.5 פעמים מהר יותר. השיפורים האלה הועברו מתת־גרפים קטנים למודלים מקצה־אל־קצה מלאים, וה-TLM נתן תוצאות דטרמיניסטיות מניסיון לניסיון.

Figure 2. המודל המאומן בוחר תזמונים יעילים מתוך אפשרויות רבות כדי לייצר קוד רץ מהר בלי חיפוש איטי.

מגבלות וכיוונים לעתיד

היתרונות של ה-TLM תלוים בכיסוי של נתוני האימון ביחס לעומסים עתידיים ולחומרה. אם יופיע אופרטור חדש לגמרי או שבב שלא היו קיימים בסט האימון, התזמונים שנוצרו עלולים להיות פחות יעילים עד שיוספו דוגמאות נוספות והמודל יעודכן. אימון ה-TLM עצמו גם הוא תובע משאבים, כיוון שהוא דורש מיליוני דוגמאות של תוכניות טנזורים. המחברים מציעים להרחיב את הגישה למודלי שפה גדולים יותר, למערכות אופרטורים רחבות יותר ולפלטפורמות חומרה נוספות, יתכן עם שיטות התאמה קלות משקל.

משמעות הדבר לשימוש יומיומי ב-AI

באופן מעשי, עבודה זו מראה שהפשרה היקרה בין קימפול מהיר לביצוע מהיר אינה קבועה. על ידי למידה מניסיון אופטימיזציה עבר, קומפיילר מבוסס־מודל שפה יכול לייצר קוד נמוך־רמה יעיל כמעט מיידית. עבור חברות וחוקרים שמפרסמים או מעדכנים בתדירות גבוהה מודלים גדולים, מערכת כזו יכולה לקצר משמעותית את זמני ההמרה תוך שמירה על ביצועים קרובים לטובים שבכלים הנוכחיים.

ציטוט: Mehmood, S., Arooj, A., Al-Shamayleh, A.S. et al. Tensor language model enables generative scheduling for efficient tensor compilation. Sci Rep 16, 15379 (2026). https://doi.org/10.1038/s41598-026-41392-8

מילות מפתח: קימפול טנזורים, קומפיילרים ללמידה עמוקה, מודלי שפה, אופטימיזציה ל-GPU, תזמון מודלים