Clear Sky Science · he
משך הזמן בין תגמולים שולט בקצב הלמידה ההתנהגותית והדופמינרגית
מדוע הקצב של תגמולים חשוב
מורים מזהירים מפני אימון אינטנסיבי של הרגע האחרון ומאלפים בעלי חיים מפזרים פינוקים—אבל מדוע הפסקות עוזרות לנו ללמוד? המחקר הזה שואל שאלה מפתיעה בפשטות שלה ובעלת השלכות רחבות: כשמנסים ללמוד שאות מסוים מנבא תגמול, האם עדיף לקבל הרבה תגמולים מהירים או פחות תגמולים שמרווחים זה מזה? באמצעות תזמון מדויק של טיפות מים מתוקות בעכברים ומדידת התנהגותם וכימיה מוחית, החוקרים גילו כלל מתמטי שאומר שהזמן בין תגמולים, ולא מספר הניסיונות הגולמי, שולט בקצב הלמידה.

לימוד עם פחות אבל טובים יותר-מרווחים פינוקים
הקבוצה אילפה עכברים צמאים, עם ראש מקובע, לקשר צליל קצר עם לגימה קטנה של נוזל מתוק. כל העכברים שמעו את אותו צליל וקיבלו את אותו תגמול זמן קצר לאחר מכן, אך הזמן עד למחזור הבא של צליל–תגמול השתנה במידה ניכרת—מחצי דקה ועד עשר דקות, ובקבוצה אחת עד שעה. עכברים עם הפסקות קצרות חוו זוגות אות–תגמול רבים ביום, בעוד אלו עם הפסקות ארוכות חוו רק כמה בודדים. אינטואיטיבית אפשר לצפות שהתוכנית ה״עמוסה״ תניב למידה מהירה יותר. במקום זאת קרה ההפך: כשההפסקות היו עשר פעמים ארוכות יותר, העכברים נזקקו בערך לעשר פעמים פחות חוויות אות–תגמול כדי להבין את הקשר.
אותה למידה באותו זמן, בלי קשר למספר הניסיונות
על אף שעכברים במרווחים הארוכים נזקקו להרבה פחות חוויות, הם בפועל לא למדו מהר יותר בזמן אמיתי. כשהחוקרים חישבו כמה דקות של קירוב ל-conditioning עברו לפני שכל עכבר התחיל להלקק בעקביות בציפייה לתגמול, הזמן הכולל ללמידה היה כמעט זהה בין הקבוצות שההפסקות ביניהן שונות בעד פי 20. במילים אחרות, הארכת המרווח בין תגמולים הפכה כל חוויה בודדת ליעילה יותר ללמידה, ביחס ישר לאורך ההמתנה. הסרת תשעה מתוך עשרה ניסיונות מתוכנית אימון צפופה לא השפיעה באופן מהותי על משך הזמן שנדרש להיווצרות האסוציאציה, כל עוד הזמן הכולל שעבר בסביבת האימון נשאר זהה.
אותות דופמין פועלים לפי אותו כלל
כדי לראות מה קורה בתוך המוח השתמשו המדענים בחיישן זוהר למעקב אחרי דופמין, נוירוטרנסמיטר שנחשב זמן רב כסמן של שגיאות חיזוי תגמול—כלומר ההבדל בין תגמול צפוי לבין תגמול ממשי. ככל שהאימון התקדם, התפרצויות קצרות של דופמין זזו בהדרגה מהתגמול עצמו אל הצליל המנבא. באופן מכריע, תגובות הדופמין הללו הראו את אותו כלל תזמון כמו ההתנהגות: כאשר התגמולים היו מרווחים בעשר פעמים יותר, התפרצות הדופמין לתמרור הופיעה לאחר כחמישית ממספר חוויות האות–תגמול, ועדיין לאחר כמות זמן שעון דומה. הדפוס הזה נשמר לא רק עבור תגמולים חיוביים אלא גם כאשר הצליל חזה זעזוע קל, מה שמרמז שלמידה חיובית ושלילית חולקות את אותו כלל מבוסס זמן.

דרך חדשה שהמוח מחשב סיבה ותוצאה
תיאוריות קלאסיות מציגות למידה כתהליך של ניסיון אחרי ניסיון שבו כל חוויה מזיזה ערך פנימי מעלה או מטה בחלק קבוע כלשהו. במודלים הללו, צפייה בעוד זוגות אות–תוצאה בתקופה נתונה אמורה תמיד להאיץ את הלמידה. התוצאות החדשות סותרות רעיון זה ובמקום זאת תומכות במסגרת שונה, שנקראת ANCCR, שבה המוח מעדכן את אמונותיו רק כשהתוצאה מתרחשת ואז פועל לאחור כדי לזקוף את הקרדיט לאותות קודמים. מאחר שהעדכונים האלה מופעלים בכל תגמול, המודל חוזה שהשינוי לכל תגמול צריך לגדול ביחס ישר לזמן שעבר מאז התגמול הקודם. זה מסביר מתמטית מדוע מרווחים ארוכים יותר בין תגמולים גורמים לכך שכל חוויה תשפיע יותר, בעוד שלמידה כוללת לאחר משך זמן קבוע נשארת ללא שינוי.
לחשוב מחדש על "תרגול עושה שלם"
במתן הראיה שמשך הזמן בין תגמולים—ולא מספר הניסיונות הגולמי—שולט בקצב הלמידה ההתנהגותית והדופמינרגית, עבודה זו מערערת את ההנחה הנפוצה שיותר חזרות בהכרח מובילות ללמידה מהירה יותר. בקשרים פשוטים בין אותות ותוצאות, הוספת ניסיונות נוספים עשויה להציע מעט תועלת אם התגמולים מגיעים קרוב מדי זה לזה. במקום זאת, ריווח מתאים יכול לאפשר למערכת הדופמין במוח לבצע עדכונים גדולים ומידעיים יותר מכל תוצאה. הממצאים קוראים לשקול מחדש את הדרך שבה אנחנו מדמים למידה במוח ומרמזים שבמקרים רבים, ריווח חכם של החוויה עשוי להיות חשוב לא פחות, ולעתים יותר חשוב, מאשר תרגול תכוף יותר.
ציטוט: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2
מילות מפתח: דופמין, למידת תגמול, אפקט הריווח, התניה אסוציאטיבית, למידת חיזוק