Clear Sky Science · ru

Интервал между наградами контролирует скорость поведенческого и дофаминергического обучения

· Назад к списку

Почему темп наград имеет значение

Учителя предупреждают против зубрежки в последнюю ночь, дрессировщики животных раздают угощения с паузами — но почему перерывы помогают учиться? В этом исследовании задаётся на удивление простой вопрос с большими последствиями: когда вы пытаетесь усвоить, что сигнал предвещает награду, что лучше — много быстрых наград или меньше наград, распределённых более растянуто? Точно дозируя капли сладкой воды мышам и измеряя их поведение и химические реакции мозга, исследователи обнаружили математическое правило: скорость обучения определяется временем между наградами, а не просто количеством испытаний.

Figure 1
Figure 1.

Обучение с меньшим, но более равномерно распределённым угощением

Команда обучала жаждущих мышей с фиксированной головой ассоциировать короткий тон с маленьким глотком сладкой жидкости. Все мыши слышали один и тот же звук и вскоре получали одинаковую награду, но время до следующего цикла «тон–награда» сильно различалось — от получаса до десяти минут, а в одной группе — до часа. Мыши с короткими перерывами проходили множество пар «сигнал–награда» в день, в то время как у мышей с длинными перерывами таких пар было лишь несколько. Интуитивно можно было предположить, что насыщенный график приведёт к более быстрому обучению. Напротив: когда паузы были в десять раз длиннее, мышам требовалось примерно в десять раз меньше пар «тон–награда», чтобы установить ассоциацию.

Одно и то же обучение за одно и то же время, независимо от числа испытаний

Хотя мышам с редкими парами требовалось гораздо меньше опытов, они фактически не учились быстрее в реальном времени. Когда исследователи подсчитали, сколько минут кондиционирования прошло до того, как каждая мышь начала надёжно вылизывать в ожидании награды, общее время до обучения оказалось почти одинаковым для групп с перерывами, различавшимися в 20 раз. Иными словами, растягивание интервала между наградами делало каждое отдельное событие более мощным для обучения пропорционально времени ожидания. Исключение девяти из десяти испытаний из плотной программы обучения практически не влияло на время формирования ассоциации, если общее прошедшее время в условиях тренировки оставалось тем же.

Дофаминовые сигналы подчиняются тому же правилу

Чтобы увидеть, что происходило в мозге, учёные использовали флуоресцентный сенсор для отслеживания дофамина — химического посредника, давно ассоциируемого с ошибками предсказания вознаграждения, то есть с разницей между ожидаемым и фактическим вознаграждением. По мере прогресса тренировки короткие всплески дофамина постепенно сдвигались с награды на предвестный тон. Что важно, эти дофаминовые ответы следовали тому же правилу времени, что и поведение: при интервалах между наградами в десять раз длиннее всплеск дофамина в ответ на сигнал появлялся примерно после в десять раз меньшего числа пар «тон–награда», но примерно за тот же календарный промежуток времени. Паттерн наблюдался не только для приятных вознаграждений, но и когда тон предвещал лёгкий шок, что указывает на то, что как положительное, так и отрицательное обучение подчиняются одному и тому же правилу, основанному на времени.

Figure 2
Figure 2.

Новый способ, которым мозг вычисляет причину и следствие

Классические теории изображают обучение как поквартальное накопление, при котором каждый опыт сдвигает внутреннюю оценку вверх или вниз на некоторую фиксированную долю. В таких «навыборных» моделях большее число пар сигнал–результат за данный период должно ускорять обучение. Новые результаты противоречат этой идее и поддерживают другую схему, названную ANCCR, в которой мозг обновляет свои убеждения только тогда, когда наступает исход, а затем работает задним числом, приписывая заслугу предыдущим сигналам. Поскольку такие обновления запускаются при каждой награде, модель предсказывает, что изменение за награду должно расти пропорционально тому, сколько времени прошло с предыдущей награды. Это математически объясняет, почему большие интервалы между наградами делают каждый опыт более значимым, не меняя общей величины обучения за фиксированную продолжительность.

Переосмысление «практика делает совершенным»

Показав, что именно продолжительность между наградами — а не простое количество испытаний — определяет скорость поведенческого и дофаминергического обучения, эта работа ставит под сомнение распространённое предположение, что больше повторений автоматически означает более быстрое обучение. Для простых ассоциаций между сигналами и исходами набивание лишних повторов может дать мало преимуществ, если награды идут слишком подряд. Вместо этого хорошо продуманная пауза позволяет дофаминовой системе мозга делать более крупные, информативные обновления после каждого исхода. Эти выводы призывают пересмотреть модели обучения в мозге и предполагают, что во многих ситуациях более разумное распределение опыта может быть не менее важно, а иногда и важнее, чем увеличение частоты практики.

Цитирование: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2

Ключевые слова: дофамин, обучение через вознаграждение, эффект интервалов, ассоциативная обусловленность, обучение с подкреплением