Clear Sky Science · es
Presiones cognitivas en conflicto sobre la exploración humana en ausencia de un intercambio con la explotación
Por qué exploramos, incluso cuando no hay nada en juego
Imagínese desplazándose por reseñas de restaurantes o recorriendo calles nuevas de una ciudad: está explorando, pero sus clics o pasos no le hacen ganar ni perder nada de forma inmediata. Este estudio pregunta cómo es nuestra curiosidad en esos entornos de bajo riesgo y si difiere de la manera en que exploramos cuando cada elección tiene una recompensa o un coste inmediato. Al eliminar las recompensas inmediatas en un experimento cuidadosamente controlado, los autores revelan las tensiones ocultas en nuestra toma de decisiones entre dos tipos de búsqueda de información.
Convertir recompensas en colores
La mayoría de los estudios de laboratorio sobre exploración usan juegos tipo apuestas donde cada elección otorga puntos o dinero. Eso dificulta saber si las personas son genuinamente curiosas o simplemente persiguen beneficios. Aquí, los investigadores diseñaron una tarea nueva en la que las “recompensas” eran solo tonos de color, no puntos. En cada ensayo, los voluntarios elegían entre dos formas abstractas, cada una vinculada a una bolsa que producía mayoritariamente resultados azulados o mayoritariamente anaranjados. Es importante: ver un color no daba ni quitaba dinero de forma inmediata; solo revelaba el patrón estadístico detrás de esa opción, como aprender cómo tiende a comportarse una máquina tragamonedas. 
Tres formas de plantear la misma pregunta
El giro ingenioso fue mantener la experiencia de muestreo igual cambiando solo las instrucciones y el momento en que aparecían las recompensas. En la condición MATCH, se dijo a las personas que debían recolectar un color objetivo, y cada resultado con más del color objetivo otorgaba puntos de inmediato, imitando los clásicos dilemas de “explorar–explotar”. En la condición GUESS, no había objetivo durante el muestreo; solo al final de la secuencia se pedía a los participantes que indicaran qué opción era mayoritariamente azul o mayoritariamente naranja, y se les pagaba únicamente por esa respuesta final. La condición FIND quedaba en medio: el color objetivo se conocía desde el principio, pero las recompensas dependían solo de una elección final. A través de varios grupos independientes, el equipo mostró que el rendimiento en todas las condiciones estuvo muy por encima del azar, confirmando que los participantes aprendieron las asociaciones color–opción.
Agrupar frente a perseguir la incertidumbre
Cuando la exploración no competía con la recompensa inmediata, la conducta de las personas fue sorprendentemente estructurada. En la condición GUESS, empezaban cada nueva secuencia muestreando repetidamente la misma opción varias veces seguidas, como si quisieran obtener una primera impresión sólida de esa opción. Solo después de este “bloque” de elecciones repetidas cambiaban de opción y, más tarde en la secuencia, empezaban a favorecer la opción que en ese momento era más incierta. Los autores llaman a la primera tendencia minimización local de la incertidumbre: reducir la duda sobre la opción que se está tocando ahora mismo. La tendencia posterior es minimización global de la incertidumbre: muestrear deliberadamente la opción cuyo comportamiento se conoce menos en conjunto. En contraste, en la condición MATCH, donde cada resultado tenía un valor claro, las personas gravitaban rápidamente hacia la opción que mejor coincidía con el color objetivo y mostraron mucho menos este patrón inicial de agrupamiento. 
Mirar bajo el capó con modelos computacionales
Para entender estos patrones con más profundidad, los investigadores construyeron modelos matemáticos que predicen las elecciones a partir del historial de colores observados. Un muestreador “óptimo”, que no se preocupara por el esfuerzo mental, siempre elegiría la opción más incierta para obtener información de la forma más eficiente posible. Los participantes humanos no se comportaron como ese agente ideal. Los ajustes de los modelos mostraron que, además de una tendencia modesta a perseguir la incertidumbre cuando las recompensas se retrasaban, las personas tenían un fuerte sesgo a repetir su elección previa y, en muchos casos, a seguir repitiendo hasta alcanzar un umbral personal de confianza sobre esa opción. Curiosamente, los individuos que mostraban un agrupamiento temprano más pronunciado a menudo también exhibían una exploración más dirigida después y rendían mejor en general, lo que sugiere que esta estrategia aparentemente subóptima puede ser en realidad un compromiso útil dadas las limitaciones cognitivas humanas.
Por qué esto importa para la curiosidad cotidiana
Estos hallazgos sugieren que cuando exploramos sin preocuparnos por las recompensas inmediatas, dos fuerzas dan forma a nuestra curiosidad. Una nos empuja a mantenernos con aquello que estamos examinando para asegurarnos de comprenderlo bien; la otra nos impulsa hacia aquello que conocemos menos en conjunto. En la vida real, ojear reseñas, aprender una ciudad nueva o probar herramientas nuevas probablemente refleje el mismo equilibrio entre la búsqueda de información local y global. El estudio muestra que si solo estudiamos la exploración en tareas centradas en recompensas, corremos el riesgo de malinterpretar cómo las personas buscan conocimiento por el mero hecho de conocerlo.
Cita: Alméras, C., Chambon, V. & Wyart, V. Competing cognitive pressures on human exploration in the absence of trade-off with exploitation. Nat Commun 17, 883 (2026). https://doi.org/10.1038/s41467-026-68639-2
Palabras clave: exploración humana, toma de decisiones, incertidumbre, búsqueda de información, modelado cognitivo