Clear Sky Science · fr
Pressions cognitives concurrentes sur l’exploration humaine en l’absence de compromis avec l’exploitation
Pourquoi nous explorons, même quand rien n’est en jeu
Imaginez que vous parcourez des avis de restaurants ou que vous flânez dans des rues nouvelles d’une ville : vous explorez, mais vos clics ou vos pas ne vous font ni gagner ni perdre quoi que ce soit immédiatement. Cette étude s’interroge sur l’apparence de notre curiosité dans de tels contextes à faible enjeu, et sur la manière dont elle diffère de l’exploration quand chaque choix rapporte ou coûte quelque chose. En éliminant les récompenses immédiates dans une expérience soigneusement contrôlée, les auteurs mettent au jour des tiraillements cachés dans notre prise de décision entre deux formes de recherche d’information.
Transformer les récompenses en couleurs
La plupart des études en laboratoire sur l’exploration utilisent des jeux de type pari où chaque choix rapporte des points ou de l’argent. Cela rend difficile de savoir si les gens sont véritablement curieux ou simplement en quête de gains. Ici, les chercheurs ont conçu une nouvelle tâche où les « récompenses » n’étaient que des nuances de couleur, pas des points. À chaque essai, les volontaires choisissaient entre deux formes abstraites, chacune associée à un sac produisant principalement des résultats plutôt bleutés ou plutôt orangés. Il est important de noter que voir une couleur ne donnait ni ne retirait d’argent immédiatement ; cela révélait seulement le schéma statistique derrière cette option, comme apprendre comment une machine à sous a tendance à se comporter. 
Trois manières de poser la même question
Le tour astucieux consistait à garder l’expérience d’échantillonnage identique tout en ne changeant que les instructions et le moment d’attribution des récompenses. Dans la condition MATCH, on demandait aux participants de collecter une couleur cible, et chaque résultat davantage proche de la couleur cible rapportait des points immédiatement, reproduisant les dilemmes classiques « explorer–exploiter ». Dans la condition GUESS, il n’y avait pas de cible pendant l’échantillonnage ; ce n’est qu’à la fin de la séquence que les participants devaient dire quelle option était majoritairement bleue ou orangée, et ils étaient payés uniquement pour cette réponse finale. La condition FIND se situait entre les deux : la couleur cible était connue dès le départ, mais les récompenses dépendaient encore d’un seul choix final. À travers plusieurs groupes indépendants, l’équipe a montré que les performances dans toutes les conditions étaient bien supérieures au hasard, confirmant que les participants avaient appris l’association couleur–option.
Fractionner versus chasser l’incertitude
Quand l’exploration ne concurrençait pas une récompense immédiate, les comportements observés étaient étonnamment structurés. Dans la condition GUESS, les participants commençaient chaque nouvelle séquence en échantillonnant plusieurs fois de suite la même option, comme s’ils voulaient obtenir une première impression solide de celle-ci. Ce n’est qu’après ce « bloc » de choix répétés qu’ils changeaient d’option et, plus tard dans la séquence, commençaient à favoriser l’option qui était alors la plus incertaine. Les auteurs qualifient la première tendance de minimisation locale de l’incertitude : réduire le doute sur l’option que l’on examine actuellement. La tendance ultérieure est la minimisation globale de l’incertitude : échantillonner délibérément l’option dont on sait le moins de choses. En revanche, dans la condition MATCH, où chaque résultat avait une valeur claire, les participants se sont rapidement orientés vers l’option qui correspondait le mieux à la couleur cible et ont montré beaucoup moins ce schéma initial de blocage. 
Regarder sous le capot avec des modèles computationnels
Pour comprendre ces motifs plus en profondeur, les chercheurs ont construit des modèles mathématiques prédisant les choix à partir de l’historique des couleurs observées. Un échantillonneur « optimal », indifférent à l’effort mental, choisirait toujours l’option la plus incertaine afin d’acquérir l’information aussi efficacement que possible. Les participants humains ne se comportaient pas comme cet agent idéal. L’ajustement des modèles a montré que, en plus d’une tendance modeste à chasser l’incertitude lorsque les récompenses étaient retardées, les personnes présentaient un fort biais à répéter leur choix précédent et, dans de nombreux cas, à continuer de répéter jusqu’à atteindre un seuil personnel de confiance sur cette option. Fait intéressant, les individus qui manifestaient un blocage initial plus marqué montraient souvent aussi une exploration plus dirigée par la suite et obtenaient de meilleures performances globales, ce qui suggère que cette stratégie apparemment sous‑optimale peut en fait constituer un compromis utile compte tenu des limites cognitives humaines.
Pourquoi cela compte pour la curiosité du quotidien
Ces résultats suggèrent que lorsque nous explorons sans nous préoccuper des gains immédiats, deux forces façonnent notre curiosité. L’une nous pousse à rester sur ce que nous examinons actuellement, pour bien le comprendre ; l’autre nous incite vers ce que nous connaissons le moins dans l’ensemble. Dans la vie réelle, parcourir des avis, découvrir une nouvelle ville ou tester de nouveaux outils reflète vraisemblablement le même équilibre entre recherche d’information locale et globale. L’étude montre que si l’on étudie l’exploration uniquement dans des tâches axées sur les récompenses, on risque de mal comprendre la manière dont les gens cherchent naturellement le savoir pour lui‑même.
Citation: Alméras, C., Chambon, V. & Wyart, V. Competing cognitive pressures on human exploration in the absence of trade-off with exploitation. Nat Commun 17, 883 (2026). https://doi.org/10.1038/s41467-026-68639-2
Mots-clés: exploration humaine, prise de décision, incertitude, recherche d’information, modélisation cognitive