Clear Sky Science · fr

Déterminants de la résolution de l’ambiguïté visuelle

2026-03-17 · Retour à l’index

Un mystère dans la vue quotidienne

Vous est-il déjà arrivé de fixer une photo floue en noir et blanc qui, soudainement, « émerge » en un objet clair dès qu’on vous dit ce que c’est ? Cette étude explore cette magie quotidienne. Les chercheurs se demandent pourquoi certaines images floues restent obstinément mystérieuses tandis que d’autres s’imposent instantanément à notre esprit, et ce qui change réellement dans notre cerveau lorsque nous « comprenons » enfin ce que nous regardons.

Transformer des images nettes en énigmes visuelles

Pour étudier ces questions, l’équipe a constitué une vaste collection d’énigmes visuelles. Ils sont partis de 1 854 photos d’objets du quotidien — des oiseaux et des outils aux fruits et aux véhicules — et les ont converties en images « Mooney » en noir et blanc très contrastées. Ces images conservent uniquement de larges plages d’ombre et de lumière, éliminant les détails fins et les dégradés. Plus de 900 volontaires ont regardé ces images en ligne. Pour chaque image, les participants ont d’abord indiqué s’ils pouvaient identifier l’objet, puis ont choisi un nom dans une liste. Fait crucial, chaque image ambiguë a été montrée deux fois : une première fois avant, puis une seconde fois après que les participants aient brièvement vu la version originale et nette en niveaux de gris entre les deux. Cela a permis aux chercheurs d’observer comment la perception évolue lorsqu’un observateur reçoit plus d’information.

Qu’est-ce qui rend une image difficile à voir ?

Pour comprendre pourquoi certaines images semblaient plus ambiguës que d’autres, les chercheurs ont utilisé un réseau neuronal artificiel inspiré du cerveau, qui reproduit les étapes de traitement visuel humaines. Ils ont comparé la similarité entre chaque image nette et sa contrepartie Mooney dans ce modèle, à différents niveaux de traitement, de la détection simple des contours à la reconnaissance d’objets plus complexe. Ils ont constaté que la transformation en Mooney détériorait principalement les stades de niveau élevé, porteurs d’informations sur l’identité de l’objet, tandis que les caractéristiques de bas niveau — contours et formes grossières — étaient relativement préservées. Les images qui conservaient davantage de ces informations de haut niveau étaient celles que les gens reconnaissaient plus facilement. Autrement dit, ce qui rend une image déroutante n’est pas tant la perte des détails bruts que la disparition de la structure abstraite qui indique « c’est un chien » ou « c’est une chaise ».

Comment l’apprentissage change notre regard

Voir la version nette d’une image — la « désambiguïsation » — a eu un effet puissant. Ensuite, les participants étaient plus rapides et plus sûrs de reconnaître l’image Mooney, et ils la nommaient correctement beaucoup plus souvent. Mais l’importance relative des caractéristiques a aussi changé. Avant la désambiguïsation, la reconnaissance dépendait fortement de la préservation des motifs de haut niveau, semblables à des objets. Après, les caractéristiques visuelles de bas niveau, comme les formes et les contours, ont joué un rôle plus grand. C’est comme si, une fois qu’ils avaient vu la réponse, les observateurs comparaient les plages noires et blanches de l’image Mooney à un nouveau modèle interne formé à partir de l’image nette, en s’appuyant sur la structure fine de l’image plutôt qu’en devinant à partir d’impressions vagues.

Des suppositions sauvages à un sens partagé

L’équipe a aussi analysé les mots employés pour nommer chaque objet. Ils ont mesuré à quel point chaque étiquette était « loin » du sens réel de l’objet dans un espace sémantique construit à partir de données linguistiques, et à quel point les réponses des participants pour une même image étaient variées. Avant la désambiguïsation, les suppositions étaient dispersées et incohérentes : certaines réponses étaient vaguement liées (« cheval » pour « zèbre »), d’autres complètement à côté. Après avoir vu l’image nette, les étiquettes se rapprochaient du sens de l’objet réel et devenaient plus similaires entre elles. Fait intéressant, la quantité d’information gagnée avec l’image nette n’améliorait pas la reconnaissance de façon linéaire. Il en ressortait plutôt une courbe en U : les performances étaient meilleures soit lorsque la nouvelle information confirmait fortement ce que l’on soupçonnait déjà, soit lorsqu’elle infirmait clairement une mauvaise hypothèse. Des corrections intermédiaires et ambiguës étaient moins utiles.

Comment notre esprit apprivoise la confusion visuelle

Ce travail suggère que nous résolvons la confusion visuelle par une interaction flexible entre des suppositions larges et un appariement précis. Au départ, notre cerveau s’appuie sur des attentes de haut niveau : on cherche à faire correspondre des formes vagues à des objets familiers. Lorsqu’on nous montre la réponse, on passe à la vérification de la concordance précise de l’agencement des contours et des taches avec l’objet que nous « savons » maintenant être présent. En parallèle, notre description mentale de l’objet devient à la fois plus nette et plus partagée entre les individus. Le constat que davantage d’information n’est pas toujours mieux, et que la confirmation nette ou la contradiction nette peuvent être les plus utiles, enrichit notre compréhension de la façon dont nous extrayons du sens à partir de vues incomplètes — un processus au cœur de notre vision dans un monde réel souvent chaotique et ambigu.

Citation: Linde-Domingo, J., Ortiz-Tudela, J., Völler, J. et al. Determinants of visual ambiguity resolution. Commun Psychol 4, 78 (2026). https://doi.org/10.1038/s44271-026-00441-8

Mots-clés: perception visuelle, ambiguïté, reconnaissance d’objet, traitement prédictif, images de Mooney