Clear Sky Science · he
הערכת יכולות החשיבה המפוצלת של מודלי שפה גדולים ליצירת רעיונות מדעיים עם הקשר מינימלי
מדוע זה חשוב לאוהבי מדע ביום-יום
חלק גדול מההתלהבות סביב ה‑AI המודרני נובע מהמראה של גאונות במבחנים ומבחנים. אבל פריצות דרך מדעיות נדירות נובעות מפתירת שאלות בחינה; הן מתחילות בדרך כלל מרעיונות מוזרים, חצי‑מגובשים, שמותזים ממילה אחת או מהרגשה. המאמר שואל שאלה פשוטה עם השלכות גדולות: כשנותנים למודלי השפה הגדולים של היום רמז זעיר — מילה מדעית בודדת — האם הם באמת מסוגלים להעלות ברמת סיעור מוחות רעיונות מחקריים טריים וסבירים, ואיך אותו "ניצוץ יצירתי" מתקשר למדדים הרגילים של אינטליגנציה של ה‑AI?
ממכונות פיתרון מבחנים לשותפים לרעיונות
רוב מדדי הביצועים הנוכחיים מתייחסים ל‑AI כתלמיד-על: מאכילים את המודלים בהקשר עשיר — כמו תקצירים מלאים או תיאורי בעיות — ואז מדרגים האם הם מוצאים את התשובה הנכונה. תצורה זו מודדת בעיקר חשיבה מתכנסת: צמצום אפשרויות לפתרון יחיד. המחברים טוענים ששלבי ההתחלה של המדע נראים שונה במידה רבה. מדען לעתים קרובות מתחיל כמעט ללא כלום חוץ ממילת נושא, ואז מבצע אסוציאציות חופשיות לעשרות שאלות וכיוונים אפשריים. כדי ללכוד סוג חשיבה מפוצלת זה במכונות, הם מציגים את LiveIdeaBench, מדד חדש שמפחית את ההקשר בכוונה למילה מדעית אחת — כמו "מיקרוסקופיה" או "תחזית מזג אוויר" — ומבקש מהמודלים להציע רעיונות מחקר קצרים וקונקרטיים.
איך המדד החדש פועל
LiveIdeaBench משתרע על פני 1180 מילות מפתח מדעיות פופולריות ב‑22 תחומים, מפיזיקה לרפואה ולמדעי החברה. לכל מילה מדעית מתבקשים למעלה מ‑40 מודלי שפה מובילים להפיק רעיונות מדעיים תמציתיים. פאנל דינמי של מודלים מצטיינים משמש אז כשופטים שמדרגים כל רעיון לאורך חמש ממדים בהשראת יצירתיות: עד כמה הוא מקורי, האם הוא נראה ישים, עד כמה הוא מנוסח בבהירות, כמה רעיונות מובחנים המודל יכול להפיק מאותו רמז (שְׁטִיפוּת), ועד כמה הוא שומר על ביצועים עקביים בנושאים שונים מאוד (גמישות). כמה שופטים מדרגים כל רעיון, והניקוד ממוצע כדי לצמצם הטיה של מודל יחיד. המדד מתעדכן בקביעות, הן במילות המפתח שהוא משתמש בהן והן במודלים שהוא מעריך, כך שהוא עוקב אחר החזית המשתנה של המדע והיכולות של ה‑AI הנוכחיים. 
מה התוצאות גולות על יצירתיות ה‑AI
המבדקים רחבי ההיקף של המחברים מראים שהביצועים ב‑LiveIdeaBench נראים שונה באופן בולט מהדירוגים בלוחיות 'אינטליגנציה כללית' סטנדרטיות. כמה מודלים ידועים שמצטיינים במתמטיקה, תכנות והסקה אינם זוהרים ביצירת רעיונות מדעיים מגוונים וחדשים מתוך רמזים מינימליים. אחרים עם ציונים כלליים צנועים יותר, כולל מודלים יחסית קטנים, מראים יכולת חשיבה מפוצלת מפתיעה, לעיתים משווים ואף עוברים מערכות מובילות במדדים הקשורים ליצירתיות. המחקר גם מוצא מסחר בין כמה רעיון נועז וכמה בטוח: מודלים שמציעים כיוונים מאוד מקוריים עשויים להיות חלשים יותר בכל הקשור לישימות, בעוד אחרים מעדיפים רעיונות פרקטיים יותר אך פחות מפתיעים. חשוב לציין שתשובות ארוכות ומפותחות יותר אינן מבטיחות רעיונות טובים יותר; כמות המילים בלבד קשורה באותה מידה באיכות באופן חלש.
הסתכלות פנימה על מכניקת ההערכה
כדי לְהִתְעַרְבֵּב בבחינת מומחים בקנה מידה גדול, המחברים נסמכים במידה רבה על "מודלי שפה כשופטים". קבוצת מודלים מובחרת מדרגת באופן עצמאי מקוריות, ישימות ובהירות, ותהליך נפרד בודק האם רעיונות מרובים מאותו מודל וממילת המפתח הם באמת שונים או סתם ניסוחים חוזרים. גמישות נתפסת על‑ידי בחינת כיצד ציוני המודל מתנהגים בתחומי חולשה שלו, לא רק בתחומים מוכרים. הצוות גם מנתח כיצד ארכיטקטורה, אסטרטגיות אימון ומדיניות בטיחות משפיעות על התפוקה היצירתית. מודלים עם מסנני בטיחות נוקשים לעיתים מתRefuse להשיב במילות מפתח רגישות, מה שפוגע בנקודות שלהם למרות התנהגות אחראית. המחברים מציינים שהשימוש בשופטים מבוססי‑AI נושא סיכונים — כגון חנופה ונקודות עיוורון בתחומי מדע לא מוכרים — אך מדגימים הסכמה ראשונית עם מומחים אנושיים בתחום מתמטי ממוקד.
השלכות לעתיד של גילוי בעזרת AI
לא‑מומחה, המסקנה המרכזית פשוטה אך עוצמתית: להיות טוב במבחנים אינו עושה אוטומטית את ה‑AI לשותף טוב בסיעור מוחות למדע חדש. חשיבה מפוצלת — היכולת להפיק מגוון רעיונות מחקר משמעותיים שונים ממילה בודדת — מתגלה ככישור חלקית בלתי תלוי שמדדים נוכחיים מתעלמים ממנו ברובה. 
ציטוט: Ruan, K., Wang, X., Hong, J. et al. Evaluating LLMs' divergent thinking capabilities for scientific idea generation with minimal context. Nat Commun 17, 3625 (2026). https://doi.org/10.1038/s41467-026-70245-1
מילות מפתח: יצירתיות ב-AI, חשיבה מפוצלת, יצירת רעיונות מדעיים, מודלי שפה גדולים, בחינת ביצועים