Clear Sky Science · fr
L’alignement du réglage neuronal avec les variétés d’objets et de textures évolue dynamiquement à travers la hiérarchie visuelle
Comment le cerveau voit plus que de simples objets
Lorsque vous jetez un coup d’œil à une rue animée, votre cerveau extrait instantanément du sens à partir d’un entremêlement de voitures, de visages, de feuilles et d’ombres. Mais les cellules cérébrales individuelles ne s’activent pas seulement pour des catégories nettes comme « voiture » ou « visage ». Elles répondent souvent à de nombreuses images sans rapport apparent, laissant les scientifiques perplexes sur ce qui motive réellement ces cellules. Cette étude utilise des intelligences artificielles avancées génératrices d’images pour permettre à des neurones isolés de « concevoir » leurs images préférées, révélant comment le cerveau équilibre la sensibilité aux textures détaillées et la reconnaissance des objets entiers.
Deux mondes visuels différents
Les chercheurs ont travaillé avec deux générateurs d’images puissants, chacun avec un « accent » visuel distinct. L’un, appelé DeePSim, excelle particulièrement à produire des textures et des motifs riches, mais ses images manquent souvent d’objets clairs et reconnaissables. L’autre, BigGAN, est entraîné pour créer des images nettes et photo-réalistes remplies d’éléments distincts comme des animaux et des outils. En considérant ces générateurs comme des manières alternatives de subdiviser l’espace des images possibles, l’équipe a pu se demander si les cellules du cerveau s’alignent davantage sur une vision centrée sur la texture ou sur une vision centrée sur l’objet.
Laisser les neurones choisir leurs propres images
Chez des macaques, les scientifiques ont enregistré l’activité de neurones le long de la voie ventrale visuelle — une chaîne de zones cérébrales qui transforme la vision brute en reconnaissance d’objets. Ils se sont concentrés sur trois stations : V1 (cortex visuel précoce), V4 (zone intermédiaire) et PIT (cortex inferotemporal postérieur, zone de haut niveau). Pendant les expériences, le taux de décharge de chaque neurone guidait une recherche en boucle fermée à travers l’espace d’images de chaque générateur. En séquences rapides, le neurone se voyait présenter des images synthétiques ; celles qui provoquaient le plus de décharges poussaient le générateur vers des images similaires lors de la ronde suivante. Au fil de nombreuses générations, cette « évolution » produisait des images fortement activantes dans les espaces de texture comme d’objet. 
Des caractéristiques locales cachées, pas seulement des objets entiers
De façon surprenante, lorsqu’un neurone optimisait des images dans l’espace centré sur la texture et dans l’espace centré sur l’objet, les images finales semblaient globalement différentes mais partageaient un motif local spécifique — comme un bord courbe ou une tache colorée — à un emplacement similaire. Des analyses utilisant des réseaux neuronaux profonds ont confirmé que ces images appariées étaient plus semblables, en espace de caractéristiques, que des images optimisées pour des neurones différents. Des cartes spatiales ont montré que l’activité du neurone était mieux prédite par des régions particulières au sein des images, suggérant que de nombreuses cellules répondent à des blocs de construction locaux récurrents pouvant apparaître dans des scènes très diverses, plutôt qu’à un gabarit d’objet unique et rigide.
Basculement de l’importance des textures vers les objets
L’équipe a ensuite examiné la facilité avec laquelle les neurones de chaque zone cérébrale pouvaient « gravir » vers une forte réponse dans chacun des espaces d’images. Dans les zones précoces V1 et V4, l’optimisation dans l’espace des textures réussissait plus souvent, progressait plus vite et atteignait des réponses de crête plus élevées que dans l’espace des objets, révélant un net biais pour les textures. En PIT, en revanche, les neurones performent bien dans les deux espaces : ils pouvaient être fortement activés par des images synthétiques tant de type texture que de type objet, et les vitesses d’optimisation devenaient comparables. L’examen du timing des réponses apporte un autre éclairage. Dans PIT, les images basées sur la texture avaient tendance à renforcer les réponses précoces, tandis que les images basées sur l’objet engageaient plus fortement des décharges tardives et soutenues, suggérant que le traitement centré sur l’objet émerge plus lentement dans le temps.
Cartes de préférences dans l’espace des objets
Pour sonder la forme précise de ces préférences, les chercheurs ont réalisé des expériences de « réglage Hessien » dans l’espace latent du générateur d’objets. Après qu’un neurone eut atteint une forte réponse à une image optimisée de type objet, ils ont échantillonné de manière systématique des images le long de nombreuses directions autour de ce point. Lorsque l’optimisation avait véritablement trouvé un pic élevé, la décharge du neurone formait typiquement des courbes en cloche le long de ces directions, augmentant puis diminuant à mesure que les images s’éloignaient de l’image préférée. Quand l’optimisation n’avait pas atteint un pic marqué, les courbes de réglage ressemblaient souvent davantage à des rampes. Cela montre que l’apparence d’un goût étroit ou d’une préférence graduelle d’un neurone peut dépendre de la profondeur de notre exploration de l’immense espace des images possibles. 
Ce que cela signifie pour la compréhension de la vision
Dans l’ensemble, l’étude brosse le tableau d’une voie visuelle ventrale flexible qui commence par privilégier les textures et acquiert progressivement une maîtrise tout aussi forte de la structure des objets. Plutôt que de coder des objets entiers comme des unités indivisibles, les neurones semblent prioriser des caractéristiques locales réutilisables qui peuvent se combiner en de nombreuses scènes différentes. Les neurones de haut niveau du PIT peuvent s’aligner à la fois sur une description du monde visuel fondée sur la texture et sur une description fondée sur l’objet, une polyvalence que les réseaux artificiels actuels peinent encore à égaler. Pour un lecteur non spécialiste, le message clé est que nos cerveaux ne sont pas simplement des « détecteurs d’objets » : ce sont des moteurs de motifs sophistiqués capables d’extraire du sens à la fois à partir de textures fines et de formes globales, modulant leur accent selon l’espace et le temps pour soutenir la riche expérience visuelle que nous tenons pour acquise.
Citation: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1
Mots-clés: cortex visuel, reconnaissance d’objets, traitement des textures, modèles génératifs, réglage neuronal