Clear Sky Science · fr
Modéliser l’attention et l’assemblage dans le cerveau par un verrouillage récurrent bidirectionnel
Comment le cerveau sait où regarder
À chaque instant, vos yeux inondent votre cerveau d’une quantité d’informations bien supérieure à ce que vous pourriez consciemment percevoir. Pour autant, vous savez repérer sans effort un ami dans une foule, suivre une voiture en mouvement ou chercher vos clés sur une table encombrée. Cette capacité à se concentrer sur l’essentiel, à lier les bonnes caractéristiques entre elles et à ignorer les distracteurs s’appelle l’attention. L’article décrit ici présente un nouveau modèle informatique inspiré du cerveau qui vise à expliquer comment une telle diversité de procédés attentionnels pourrait émerger d’un mécanisme unique sous-jacent.

Un seul modèle pour plusieurs types de focalisation
L’attention n’est pas une chose uniforme. Parfois, nous nous focalisons sur un endroit de l’espace, comme un projecteur. Parfois, nous nous accordons sur une caractéristique, comme une couleur particulière, et parfois nous nous fixons sur des objets entiers, en maintenant l’unité de leurs parties même quand ils bougent ou sont partiellement masqués. Les auteurs soutiennent qu’au lieu de systèmes séparés et spécialisés, toutes ces formes d’attention pourraient émerger d’un même schéma de circuit dans la voie visuelle du cerveau. Ils construisent un modèle qui mime le flux visuel ventral, l’ensemble de régions cérébrales qui transforme les pixels bruts de la rétine en objets reconnaissables. Dans leur conception, une voie fait monter l’information en extrayant des caractéristiques visuelles, tandis qu’une autre voie renvoie des signaux vers le bas pour décider quelles caractéristiques doivent être renforcées ou affaiblies.
Des verrous qui communiquent dans les deux sens
Le cœur du modèle est ce que les auteurs appellent le verrouillage récurrent bidirectionnel. Imaginez une pile d’étapes de traitement visuel, des bords simples aux formes complexes. À chaque étape, le signal ascendant porte ce qui est présent dans l’image, tandis qu’un signal descendant et latéral porte ce qui est actuellement pertinent pour la tâche. Ces signaux se rencontrent à des « verrous » qui modulent multiplicativement l’activité des caractéristiques à travers plusieurs pas temporels. Parce que les connexions sont récurrentes, le modèle peut affiner sa focalisation au fil du temps, un peu comme vous le faites quand vous entrez dans une scène en désordre puis que vous vous concentrez progressivement sur une cible. Cette architecture est entraînée avec des techniques classiques d’apprentissage automatique sur deux objectifs de base — classer ce qui est présent et segmenter où c’est — sans pour autant se voir explicitement indiquer comment implémenter l’attention.
Apprendre à chercher, suivre et ignorer les distracteurs
Une fois entraîné, le modèle est testé sur une série de tâches attentionnelles classiques habituellement données aux humains et aux animaux. En utilisant des images composées de chiffres manuscrits et de photographies naturelles d’animaux, il apprend à reconnaître des objets dans le désordre, à regrouper des éléments indiqués, à suivre des éléments en mouvement et à effectuer une recherche visuelle basée soit sur des indices visuels soit sur des signaux symboliques comme des flèches. Il peut mettre en valeur un seul élément discordant dans une grille, passer l’attention d’un objet à l’autre sans rester « bloqué » sur le même, et suivre une cible dans le temps tout en ignorant des distracteurs. De manière remarquable, bon nombre de ces comportements apparaissent même lorsque le modèle ne reçoit de rétroaction que sur la réponse finale, et non sur l’endroit où il aurait dû regarder, ce qui suggère que des stratégies attentionnelles peuvent émerger comme effet secondaire de l’apprentissage pour résoudre des tâches pertinentes.
Refléter la perception humaine et les signaux cérébraux
Les auteurs s’interrogent ensuite sur le fait que le modèle se comporte comme les humains de façons plus subtiles. Dans des tests contrôlés utilisant de simples patchs à motifs, le modèle montre une sensibilité accrue lorsqu’un indice pointe vers la bonne location, et ses performances chutent en présence de nombreux distracteurs — parallèlement aux résultats humains sur la sensibilité au contraste et la charge perceptive. Il « tombe » aussi dans une illusion perceptuelle classique où un occluant visible rend une forme fragmentée plus facile à reconnaître, suggérant qu’il représente figure et fond d’une manière proche du cerveau. En regardant à l’intérieur du réseau, des unités des couches profondes montrent des renforcements de réponse lorsque leur objet préféré est attentif, sans modifier leur réglage de base, de façon similaire aux neurones du cortex visuel des primates. Des groupes distincts d’unités se comportent comme des détecteurs de caractéristiques et des cellules de « propriété de bord » qui aident à décider quel côté d’un bord appartient à la figure et quel côté appartient à l’arrière-plan.

Pourquoi c’est important pour les cerveaux et les machines
Ce travail suggère que de nombreuses caractéristiques majeures de l’attention biologique — s’orienter vers des indices, filtrer le désordre non pertinent, chercher des cibles, lier des caractéristiques en objets cohérents, et même certaines défaillances de la conscience — peuvent toutes émerger d’un seul principe architectural : le verrouillage récurrent entre une voie de caractéristiques et une voie d’attention. En termes simples, le modèle montre comment un système qui re-pondère à plusieurs reprises ce qu’il voit, en fonction des objectifs et du contexte, peut apprendre à « prêter attention » sans être explicitement programmé pour le faire. Cela offre aux neuroscientifiques un cadre concret et testable pour comprendre l’attention et l’assemblage dans le cerveau, et fournit aux chercheurs en intelligence artificielle une alternative inspirée biologiquement aux architectures majoritairement feedforward d’aujourd’hui.
Citation: Salehi, S., Lei, J., Benjamin, A.S. et al. Modeling attention and binding in the brain through bidirectional recurrent gating. Nat Commun 17, 4072 (2026). https://doi.org/10.1038/s41467-026-72146-9
Mots-clés: attention visuelle, liaison de caractéristiques, réseaux neuronaux récurrents, neurosciences computationnelles, IA inspirée du cerveau