Clear Sky Science · fr

La durée entre les récompenses contrôle le rythme de l’apprentissage comportemental et dopaminergique

· Retour à l’index

Pourquoi le rythme des récompenses compte

Les enseignants déconseillent les révisions de dernière minute, et les dresseurs espaçent les friandises — mais pourquoi les pauses aident‑elles à apprendre ? Cette étude pose une question étonnamment simple aux implications fortes : lorsque vous essayez d’apprendre qu’un signal prédit une récompense, est‑il préférable d’obtenir de nombreuses récompenses rapides ou moins de récompenses espacées ? En administrant à intervalles précis des gouttes d’eau sucrée à des souris et en mesurant à la fois leur comportement et la chimie de leur cerveau, les chercheurs mettent en évidence une règle mathématique montrant que c’est le temps entre les récompenses, et non le nombre brut d’essais, qui contrôle la vitesse d’apprentissage.

Figure 1
Figure 1.

Apprendre avec moins de friandises mais mieux espacées

L’équipe a entraîné des souris assoiffées, la tête fixée, à associer un bref ton à une minuscule gorgée de liquide sucré. Toutes les souris entendaient le même son et recevaient la même récompense peu après, mais le délai jusqu’au cycle suivant signal‑récompense variait fortement — de trente secondes à dix minutes, et pour un groupe jusqu’à une heure. Les souris soumises à de courts intervalles ont vécu de nombreux appariements signal–récompense par jour, tandis que celles avec de longues pauses n’en ont vécu que quelques‑uns. Intuitivement, on pourrait s’attendre à ce que le protocole « chargé » accélère l’apprentissage. Au lieu de cela, le contraire s’est produit : lorsque les pauses étaient dix fois plus longues, les souris ont eu besoin d’environ dix fois moins d’expériences signal–récompense pour identifier l’association.

Le même apprentissage en même temps, quel que soit le nombre d’essais

Bien que les souris espacées aient eu besoin de beaucoup moins d’expériences, elles n’ont pas réellement appris plus rapidement en temps réel. Lorsque les chercheurs ont calculé combien de minutes de conditionnement s’étaient écoulées avant que chaque souris commence à lécher de façon fiable en anticipation de la récompense, le temps total d’apprentissage était presque identique entre des groupes dont les pauses différaient d’un facteur 20. Autrement dit, étirer l’intervalle entre récompenses rendait chaque expérience individuelle plus efficace pour l’apprentissage, en proportion directe du temps d’attente. Supprimer neuf essais sur dix d’un programme dense n’avait essentiellement aucun effet sur la durée nécessaire à la formation de l’association, tant que le temps total écoulé en condition d’entraînement restait le même.

Les signaux dopaminergiques suivent la même règle

Pour voir ce qui se passait dans le cerveau, les scientifiques ont utilisé un capteur fluorescent pour suivre la dopamine, un messager chimique longtemps associé aux erreurs de prédiction de récompense — c’est‑à‑dire la différence entre la récompense attendue et la récompense réelle. Au fur et à mesure du conditionnement, de brèves poussées de dopamine ont progressivement basculé de la récompense elle‑même vers le ton prédictif. De manière cruciale, ces réponses dopaminergiques ont montré la même règle temporelle que le comportement : lorsque les récompenses étaient espacées dix fois plus, le sursaut de dopamine en réponse au signal est apparu après environ un dixième du nombre d’expériences signal–récompense, mais après à peu près la même durée en temps réel. Le schéma se vérifiait non seulement pour des récompenses agréables mais aussi lorsque le ton prédisait un léger choc, suggérant que l’apprentissage positif et négatif obéit à la même règle basée sur le temps.

Figure 2
Figure 2.

Une nouvelle manière dont le cerveau calcule cause et effet

Les théories classiques décrivent l’apprentissage comme un processus essai par essai où chaque expérience fait légèrement monter ou descendre une valeur interne d’une fraction fixe. Dans ces modèles « basés sur les essais », voir plus d’appariements signal‑issue sur une période donnée devrait toujours accélérer l’apprentissage. Les nouveaux résultats contredisent cette idée et soutiennent plutôt un cadre différent, appelé ANCCR, dans lequel le cerveau met à jour ses croyances seulement lorsqu’un résultat se produit, puis remonte le temps pour attribuer du crédit aux signaux antérieurs. Parce que ces mises à jour sont déclenchées à chaque récompense, le modèle prédit que le changement par récompense doit croître en proportion directe du temps écoulé depuis la récompense précédente. Cela explique mathématiquement pourquoi des intervalles plus longs entre récompenses rendent chaque expérience plus significative, tout en laissant l’apprentissage global après une durée fixe inchangé.

Repenser le « à force de pratiquer »

En montrant que la durée entre les récompenses — et non le simple nombre d’essais — gouverne à la fois les taux d’apprentissage comportemental et dopaminergique, ce travail remet en cause l’idée reçue selon laquelle davantage de répétitions accélèrent automatiquement l’apprentissage. Pour des associations simples entre signaux et conséquences, multiplier les essais peut apporter peu d’avantage si les récompenses sont trop rapprochées. À l’inverse, un espacement bien choisi permet au système dopaminergique du cerveau d’effectuer des mises à jour plus larges et plus informatives à partir de chaque résultat. Ces conclusions appellent à réévaluer nos modèles de l’apprentissage cérébral et suggèrent que, dans de nombreuses situations, espacer les expériences judicieusement peut être aussi important — voire plus important — que de pratiquer plus souvent.

Citation: Burke, D.A., Taylor, A., Jeong, H. et al. Duration between rewards controls the rate of behavioral and dopaminergic learning. Nat Neurosci 29, 825–839 (2026). https://doi.org/10.1038/s41593-026-02206-2

Mots-clés: dopamine, apprentissage par récompense, effet d’espacement, conditionnement associatif, apprentissage par renforcement