Clear Sky Science · fr

L’inférence causale façonne la postdiction crossmodale dans l’intégration multisensorielle

· Retour à l’index

Comment des images et des sons ultérieurs réécrivent ce que nous venons d’expérimenter

Souvenez-vous de ce moment où vous avez enfin remarqué un ami qui vous appelait dans une rue animée, et réalisé soudain qu’il criait depuis un certain temps. On a l’impression que l’esprit remonte le temps et réécrit ce que vous avez entendu et vu il y a un instant. Cette étude examine comment le cerveau combine les informations visuelles et auditives sur une courte fenêtre temporelle et montre que des images et des sons postérieurs peuvent littéralement modifier ce que nous croyons avoir vu dans le passé.

Figure 1
Figure 1.

Un étrange tour de flashes et de bips

Les chercheurs se sont concentrés sur deux illusions curieuses appelées « le Lapin AV Illusoire » et « le Lapin AV Invisible ». Dans ces illusions, de brefs éclairs de lumière à l’écran sont associés à de rapides bips provenant d’un haut-parleur. Parfois un flash manque alors qu’un bip est présent ; d’autres fois un flash est présent sans bip. Lorsque les flashes et les bips sont organisés dans une séquence spécifique et surviennent proches dans le temps, les sujets rapportent de manière fiable voir un flash supplémentaire qui n’a jamais eu lieu, ou ne pas voir un flash qui était réellement présent. De façon cruciale, la dernière paire flash–bip de la séquence peut changer la perception d’instants antérieurs, montrant que la perception n’avance pas simplement dans le temps mais peut être éditée a posteriori.

Tester comment le cerveau choisit une seule histoire

Pour comprendre les règles sous-jacentes à ces illusions, l’équipe a présenté 28 conditions soigneusement conçues à 28 volontaires. On a demandé aux participants d’ignorer les sons et de simplement indiquer combien de flashes ils avaient vus et où ils étaient apparus sur une rangée de cinq positions possibles. Les séquences de flashes pouvaient se déplacer vers la gauche ou la droite, voire changer de direction, et les sons pouvaient être parfaitement synchronisés avec les flashes ou décalés d’environ deux dixièmes de seconde. Ce protocole a réduit les stratégies de devinette simples et a permis aux chercheurs de sonder quand le cerveau fusionne la vue et l’ouïe et quand il les maintient séparées. Ils ont ensuite mesuré la fréquence à laquelle les participants signalaient des flashes intermédiaires illusoires (le « Lapin Illusoire ») ou manquaient de voir des flashes intermédiaires réels (le « Lapin Invisible »).

Quand le timing s’aligne, les illusions dominent

Les résultats montrent que les essais induisant l’illusion produisaient bien plus de flashes illusoires ou manquants que les essais de contrôle où les flashes apparaissaient seuls ou dans des combinaisons audiovisuelle plus simples. Lorsque les flashes et les bips étaient parfaitement alignés dans le temps, les participants rapportaient les illusions dans environ 40 % des essais. Mais lorsque les sons précédaient ou suivaient les flashes de 225 millisecondes, le taux d’illusion chutait. Cela suggère que le cerveau dispose d’une « fenêtre temporelle multisensorielle » limitée — de l’ordre de quelques centaines de millisecondes — au sein de laquelle il est prêt à considérer la vue et l’ouïe comme partie d’un même événement. À l’intérieur de cette fenêtre, des événements ultérieurs peuvent rétroactivement modifier la perception de flashes antérieurs ; en dehors, le cerveau est plus enclin à traiter la vision et l’audition comme des flux indépendants.

Figure 2
Figure 2.

Un cerveau qui pèse les causes comme un statisticien

Pour expliquer ces résultats, les auteurs ont comparé quatre modèles computationnels de la manière dont le cerveau pourrait combiner les informations sensorielles. Le modèle clé était un modèle d’Inférence Causale Bayésienne (ICB), qui suppose que le cerveau se comporte un peu comme un statisticien : il pondère des attentes préalables et des preuves sensorielles bruitées pour décider si la vision et l’audition proviennent d’une cause commune ou de causes séparées. Si une cause commune est probable, le modèle fusionne flashes et bips en un seul événement, en donnant plus de poids au sens le plus fiable — ici, les bips, nets et précis. Trois modèles alternatifs fusionnaient toujours la vue et le son, les gardaient toujours séparés, ou utilisaient l’inférence causale mais ignoraient la dernière paire flash–bip lors de la décision, et ne pouvaient donc pas rendre compte pleinement de la postdiction.

Pourquoi l’explication bayésienne convient le mieux

Le modèle ICB correspondait le mieux au comportement des participants sur l’ensemble des conditions. Il reproduisait fidèlement les taux élevés d’illusion dans les conditions clés du « lapin », les taux plus faibles dans les essais de contrôle, et la baisse d’illusions quand flashes et bips étaient désynchronisés. De façon importante, lorsque les chercheurs ont retiré l’influence de la dernière paire flash–bip du calcul causal, le modèle sous-estimait systématiquement la fréquence des illusions. Cela indique que le cerveau ne construit pas simplement une perception à partir du premier événement vers l’avant ; au contraire, il accumule des preuves sur l’ensemble de la séquence puis décide rétrospectivement de l’histoire la plus probable. Quand la dernière paire flash–bip soutient fortement une cause unique partagée, le cerveau est plus enclin à « combler » un flash manquant ou à effacer un flash faible au milieu.

Ce que cela signifie pour la perception quotidienne

Dans la vie quotidienne, nos sens sont constamment bombardés d’images et de sons qui se chevauchent. Ce travail suggère que le cerveau attend un bref instant, recueille des informations provenant d’événements passés, présents et légèrement futurs, puis se fixe sur une interprétation cohérente — parfois au prix de l’exactitude. Le cadre de l’inférence causale bayésienne offre une explication simple : nos cerveaux favorisent une seule histoire plausible de ce qui s’est passé, même si cela implique d’ajouter ou d’effacer des détails après coup. Autrement dit, ce que vous pensez avoir vu il y a une fraction de seconde peut être discrètement réécrit par ce que vous entendez ou voyez ensuite.

Citation: Günaydın, G., Moran, J.K., Rohe, T. et al. Causal inference shapes crossmodal postdiction in multisensory integration. Sci Rep 16, 7490 (2026). https://doi.org/10.1038/s41598-026-36884-6

Mots-clés: intégration multisensorielle, illusion audiovisuelle, inférence causale, postdiction, perception bayésienne