Clear Sky Science · he

סולמות כלליים פותחים הערכה של בינה מלאכותית עם כוח הסברתי וחיזויי

· חזרה לאינדקס

למה אנחנו זקוקים לדפי ציונים טובים יותר לבינה מלאכותית

בעוד מערכות בינה מלאכותית מתקדמות מצ'אטבוטים וסייעני קוד אל מעבדות מחקר, כיתות עבודה ומקומות עבודה, חשוב לדעת מה הן יכולות ומה הן אינן יכולות לעשות. דפי הציונים הקיימים כיום הם לרוב ניקוד בודד בבנצ'מרקים צרים, שאינם מגלים הרבה לגבי מדוע מערכת מצליחה או נכשלת — או כיצד תתנהג מול סוג בעיה חדש. מאמר זה מציע דרך מדידה חדשה של בינה מלאכותית שמטרתה להיות שיטתית ויציבה כמו סולמות טמפרטורה למזג אוויר, ולספק תובנה ברורה יותר על חוזקות, חולשות וביצועים עתידיים של מערכות ה-AI.

מבחנים מפוזרים אל סולמות משותפים

מרבית הערכות ה-AI הנוכחיות דומות למבחני בית ספר שנעשים אחד־אחד: כל בנצ'מרק מערבב יחד כישורים ורמות קושי רבות, והציון הסופי הוא אחוז יחיד. אחוז זה תלוי לא פחות בתכונות המיוחדות של המבחן מאשר ביכולות ה-AI. המחברים טוענים שזה הופך את החיזוי של ביצועים במשימות חדשות לבלתי אפשרי ומוביל לבלבול — למשל כשבנצ'מרק אחד במתמטיקה אומר שמודל "מנמק היטב" ואחר מצביע על ההפך. במקום להסתפק בממוצעי ציונים, הם מציעים לתאר כל משימה לפי מידת הדרישה שלה לאורך קבוצה של סולמות כלליים וברורים לבני אדם.

בניית מד ממוצע ליכולות AI

כדי ליצור מד משותף זה, הצוות תכנן 18 סולמות דרישה שמכסים כישורי חשיבה רחבים ותחומי ידע. אלה כוללים יכולות כמו הבנת שפה, מעקב אחר רצפי היסק, חשיבה על הידע העצמי, וידע בעובדות מתחומי המדעים הטבעיים, החברתיים, היישומיים והפורמליים. הם גם עוקבים אחרי דרישות "חיצוניות" שיכולות להקשות או להקל על בעיות מבלי לשנות את הכישור הבסיסי, כגון עד כמה שאלה נדירה, כמה מידע היא מצרפת, או אם היא רב־בררנית. כל סולם נע מאפס דרישה לרמות אתגר הולכות וגדלות, מותאם בקווים כלליים כך שעלייה ברמה משמעה שיחסית פחות אנשים — או AIs — צפויים לפתור את הפריט.

להדריך מכונות לתייג מה שבאמת דרוש במשימות
Figure 1
Figure 1.

דירוג ידני של אלפי שאלות על פני 18 סולמות היה בלתי אפשרי לבצע רק על ידי פנלים של מומחים, לכן המחברים משתמשים במודלים שפתיים מתקדמים עצמם כאנוטטורים. הם כותבים רוביקות מפורטות עם דוגמאות לכל רמה של כל סולם, ואז מבקשים ממודל (GPT‑4o) להקצות רמות דרישה ליותר מ־16,000 שאלות שנלקחו מ־20 בנצ'מרקים מודרניים. מומחים אנושיים בודקים תת־קבוצה ומשיגים הסכמה חזקה עם התוויות של המודל. לאחר האנוטציה, כל בנצ'מרק ניתן להמחזה כ"פרופיל דרישה" המראה עד כמה הוא באמת מאמץ כל יכולת. זה חושף רבים מהמבחנים החגיגיים שאינם מודדים את מה שתכננו המעצבנים: חלקם טוענים להתמקד בהיסק אך למעשה נשענים על ידע עובדתי מעורפל, אחרים מרוכזים ברמת קושי אחת, וכמעט אף אחד אינו רגיש (מכסה טווח רמות טוב) וגם ספציפי (מניעת כישורים בלתי מכוונים).

לקרוא עקומות יכולת של AI במקום ציונים גולמיים

עם אותם סולמות שמופעלים על המשימות, הצעד הבא הוא לראות כיצד מערכות AI שונות מתמודדות עם עלייה בדרישות בכל ממד. המחברים בודקים 15 מודלים שפתיים גדולים משלוש משפחות מרכזיות ובוחנים, עבור כל סולם, את הסיכוי להצלחה ככל שהמשימות נעשות קשות יותר. התאמת עקומות חלקות לנקודות אלה מניבה "רמת יכולת" לכל מודל על כל סולם: רמת הדרישה שבה הוא מצליח בערך בחצי מהמקרים כשדרישות אחרות אינן גבוהות יותר. בניגוד לדיוק גולמי, ציוני היכולת האלה אינם תלויים בתמהיל הספציפי של פריטים קלים וקשים בבנצ'מרק. הפרופילים שנוצרים מראים דפוסים מובהקים: מודלים גדולים משפרים בעיקר ידע עובדתי, בעוד שמודלים מיוחדים "להסקה" מרוויחים יותר בחשיבה מספרית ולוגית, בזיהוי מידע רלוונטי, ואף במידול מוחות ומצבים חברתיים. העקומות גם מגלות תשואות פוחתות: הוספת פרמטרים נוספת בסופו של דבר מביאה רק לשיפורי יכולת מתונים.

שימוש בפרופילי דרישה לחיזוי ובקרה של התנהגות AI
Figure 2
Figure 2.

מכיוון שמשימות ומערכות כעת נמדדות באמצעות אותם סולמות, המחברים יכולים להתייחס להערכה כבעיית חיזוי. הם מאמנים "מעניקים" פשוטים של למידת מכונה המקבלים כקלט רק את 18 רמות הדרישה של שאלה ומחזירים את הסבירות שמודל מסוים יענה נכון. מעניקים אלה חוזים הצלחה בדיוק רב, לא רק על משימות מוכרות אלא גם על משימות חדשות לגמרי ועל בנצ'מרקים שנשארו מחוץ לאימון. הם עולים על גישות שחורות כבדות יותר התלויות בהטמעות טקסט או בכיוונון ישיר של מודלים גדולים. זה מאפשר שימושים מעשיים כמו ניתוב כל שאילתה נכנסת למודל הסביר שיטפל בה בבטחה, או דחיית שאילתות שנמצאות מחוץ לאזור האמין של כל מודל לפני נזק.

צעד לעבר מדע של הערכת בינה מלאכותית

המחברים מסכמים שסולמות דרישה ויכולת כלליים יכולים להפוך את אופן השיפוט והפריסה של בינה מלאכותית. במקום לרדוף אחרי בנצ'מרקים גדולים וקצרת־יום וציונים מעורפלים, נוכל לבנות מסגרת מדידה יציבה והרחיבה שמסבירה מדוע מערכות נכשלות, משווה אותן באופן הוגן בין תחומים ומצפה את התנהגותן במשימות חדשות. בדומה ליחידות מוסדרות בפיזיקה שאיפשרו הנדסה מדויקת, סט משותף ומתוכנן היטב של סולמות קוגניטיביים יכול לתמוך בשימוש בטוח וצפוי יותר ב־AI בשנים הבאות.

ציטוט: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2

מילות מפתח: הערכת בינה מלאכותית, בנצ'מרקינג, מודלים שפתיים גדולים, הערכה חיזויית, בטיחות בינה מלאכותית