Clear Sky Science · es

La duración entre recompensas controla la velocidad del aprendizaje conductual y dopaminérgico

2026-02-12 · Volver al índice

Por qué importa el ritmo de las recompensas

Los profesores advierten contra estudiar a última hora y los adiestradores de animales espacían las golosinas, pero ¿por qué ayudan las pausas a aprender? Este estudio plantea una pregunta sorprendentemente simple con grandes implicaciones: cuando intentas aprender que una señal predice una recompensa, ¿es mejor recibir muchas recompensas rápidas o menos recompensas espaciadas? Cronometrando con cuidado gotas de agua azucarada para ratones y midiendo tanto su conducta como la química cerebral, los investigadores descubren una regla matemática que muestra que el tiempo entre recompensas, no el número bruto de ensayos, controla la velocidad del aprendizaje.

Aprender con menos golosinas pero mejor espaciadas

El equipo entrenó ratones sedientos con la cabeza inmovilizada para asociar un tono breve con un pequeño sorbo de líquido dulce. Todos los ratones escucharon el mismo sonido y recibieron la misma recompensa poco después, pero el tiempo hasta el siguiente ciclo de tono y recompensa varió mucho: desde medio minuto hasta diez minutos, y en un grupo una hora. Los ratones con pausas cortas experimentaron muchos apareamientos de señal y recompensa por día, mientras que los de pausas largas solo unos pocos. Intuitivamente, podría esperarse que el programa “ocupado” produjera un aprendizaje más rápido. En cambio, ocurrió lo contrario: cuando las pausas fueron diez veces más largas, los ratones necesitaron aproximadamente diez veces menos experiencias señal–recompensa para descubrir la asociación.

Mismo aprendizaje en el mismo tiempo, sin importar cuántos ensayos

Aunque los ratones espaciados necesitaron muchas menos experiencias, en realidad no aprendieron más rápido en tiempo real. Cuando los investigadores calcularon cuántos minutos de condicionamiento pasaron antes de que cada ratón comenzara a lamer de forma fiable anticipando la recompensa, el tiempo total para aprender fue casi idéntico entre los grupos cuyas pausas variaron 20 veces. En otras palabras, al alargar el intervalo entre recompensas, cada experiencia individual se volvió más potente para el aprendizaje, en proporción directa al tiempo de espera. Eliminar nueve de cada diez ensayos de un programa denso tuvo esencialmente ningún efecto en cuánto tiempo llevó formar la asociación, siempre que el tiempo total transcurrido en el entorno de entrenamiento fuese el mismo.

Las señales de dopamina siguen la misma regla

Para ver qué ocurría dentro del cerebro, los científicos usaron un sensor fluorescente para seguir la dopamina, un mensajero químico considerado durante mucho tiempo como señal de errores de predicción de recompensa, es decir, la diferencia entre la recompensa esperada y la real. A medida que avanzó el entrenamiento, breves oleadas de dopamina se desplazaron gradualmente desde la propia recompensa hacia el tono predictivo. De forma crucial, estas respuestas dopaminérgicas mostraron la misma regla temporal que la conducta: cuando las recompensas estaban espaciadas diez veces más, la oleada de dopamina al estímulo apareció después de aproximadamente una décima parte de experiencias señal–recompensa, pero tras un tiempo de reloj aproximadamente igual. El patrón se mantuvo no solo para recompensas agradables sino también cuando el tono predecía una leve descarga, lo que sugiere que tanto el aprendizaje positivo como el negativo comparten la misma regla basada en el tiempo.

Una nueva manera en que el cerebro calcula causa y efecto

Las teorías clásicas retratan el aprendizaje como un proceso ensayo a ensayo en el que cada experiencia empuja un valor interno hacia arriba o hacia abajo en una fracción fija. En estos modelos “basados en ensayos”, ver más apareamientos de señal y resultado en un periodo dado debería siempre acelerar el aprendizaje. Los nuevos resultados contradicen esa idea y en su lugar apoyan un marco diferente, llamado ANCCR, en el que el cerebro actualiza sus creencias solo cuando ocurre un resultado y luego trabaja hacia atrás en el tiempo para acreditar señales anteriores. Debido a que estas actualizaciones se disparan en cada recompensa, el modelo predice que el cambio por recompensa debería crecer en proporción directa al tiempo transcurrido desde la recompensa previa. Esto explica matemáticamente por qué los intervalos más largos entre recompensas hacen que cada experiencia cuente más, sin cambiar el aprendizaje total tras una duración fija.

Repensar “la práctica hace al maestro”

Al mostrar que la duración entre recompensas—no el mero número de ensayos—gobierna tanto las tasas de aprendizaje conductual como las dopaminérgicas, este trabajo desafía la suposición común de que más repeticiones significan automáticamente aprendizaje más rápido. Para asociaciones simples entre señales y resultados, apretar ensayos extra puede ofrecer poco beneficio si las recompensas llegan demasiado juntas. En cambio, un espaciado bien sincronizado puede permitir que el sistema dopaminérgico del cerebro realice actualizaciones más grandes y más informativas a partir de cada resultado. Los hallazgos piden reevaluar cómo modelamos el aprendizaje en el cerebro y sugieren que, en muchas situaciones, espaciar las experiencias de forma inteligente puede ser tan importante como, o más importante que, practicar con mayor frecuencia.

Cita: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2

Palabras clave: dopamina, aprendizaje por recompensa, efecto del espaciado, condicionamiento asociativo, aprendizaje por refuerzo