Clear Sky Science · es

Determinantes de la resolución de la ambigüedad visual

· Volver al índice

Misterio en la visión cotidiana

¿Alguna vez has mirado una imagen borrosa en blanco y negro que de pronto “salta” y se convierte en un objeto claro, después de que alguien te diga qué es? Este estudio profundiza en esa magia cotidiana. Los investigadores plantean por qué algunas imágenes difusas permanecen obstinadamente confusas mientras que otras se enfocan de golpe en nuestra mente, y qué cambia realmente en el cerebro cuando finalmente «entendemos» lo que vemos.

Figure 1
Figura 1.

Convertir imágenes nítidas en acertijos visuales

Para investigar estas preguntas, el equipo creó una gran colección de acertijos visuales. Empezaron con 1.854 fotos de objetos cotidianos —desde aves y herramientas hasta frutas y vehículos— y las convirtieron en imágenes en blanco y negro tipo «Mooney». Estas imágenes conservan solo amplias manchas de oscuro y claro, eliminando el detalle fino y el sombreado. Más de 900 voluntarios examinaron estas imágenes en línea. Para cada imagen, primero indicaban si podían identificar el objeto y luego elegían un nombre de una lista. De forma crucial, cada imagen ambigua se mostró dos veces: una antes y otra después de que los participantes vieran brevemente la versión original en escala de grises. Esto permitió a los investigadores observar cómo cambiaba la percepción a medida que la gente obtenía más información.

¿Qué hace que una imagen sea difícil de ver?

Para entender por qué algunas imágenes resultaban más ambiguas que otras, los investigadores recurrieron a una red neuronal artificial inspirada en el cerebro que imita las etapas de procesamiento visual humano. Compararon cuán similares parecían cada imagen nítida y su contraparte Mooney para este modelo en distintas etapas, desde la detección de bordes simples hasta el reconocimiento complejo de objetos. Encontraron que la transformación Mooney dañaba principalmente las etapas de alto nivel que portan información sobre qué es el objeto, mientras que características de bajo nivel como bordes y formas gruesas quedaban relativamente preservadas. Las imágenes que conservaban más de esas características de alto nivel fueron las que la gente encontró más fáciles de reconocer. En otras palabras, lo que hace confusa a una imagen no es tanto la pérdida de detalle bruto como la pérdida de la estructura abstracta que indica «esto es un perro» o «esto es una silla».

Cómo el aprendizaje cambia la forma en que miramos

Ver la versión clara de una imagen —la «desambiguación»— tuvo un efecto poderoso. Después, la gente fue más rápida y más segura al decir que reconocía la imagen Mooney, y la identificó correctamente con mucha más frecuencia. Pero también cambió la forma en que importaban las características. Antes de la desambiguación, el reconocimiento dependía en gran medida de si la imagen preservaba esos patrones de alto nivel similares a objetos. Después, las características visuales de bajo nivel, como las formas y los contornos, jugaron un papel mayor. Es como si, una vez que las personas habían visto la respuesta, comenzaran a comparar las manchas blancas y negras de la Mooney con una plantilla interna recién formada a partir de la imagen clara, usando la estructura más fina de la foto en lugar de inferir a partir de impresiones vagas.

Figure 2
Figura 2.

De conjeturas aleatorias a significado compartido

El equipo también analizó las palabras que la gente usó para nombrar cada objeto. Midiendo qué tan «lejos» estaba cada etiqueta del significado del objeto real en un espacio semántico construido a partir de datos lingüísticos, y cuán variadas eran las etiquetas que daban distintas personas para la misma imagen. Antes de la desambiguación, las conjeturas estaban dispersas e inconsistentes: algunas respuestas eran vagamente relacionadas («caballo» por «cebra»), otras estaban muy fuera de lugar. Después de ver la imagen clara, las etiquetas de las personas se acercaron más en significado al objeto real y se volvieron más similares entre sí. Curiosamente, la cantidad de información ganada con la imagen clara no mejoró el reconocimiento de forma lineal. En cambio, hubo un patrón en forma de U: la gente se desempeñó mejor cuando la nueva información confirmaba fuertemente lo que ya sospechaban o cuando desmentía claramente una suposición errónea. Las correcciones moderadas y ambiguas fueron menos útiles.

Cómo nuestra mente doma la confusión visual

Este trabajo sugiere que resolvemos la confusión visual mediante una danza flexible entre conjeturas generales y emparejamientos precisos. Al principio, nuestro cerebro se apoya en expectativas de alto nivel: intentamos ajust ar formas vagas a objetos familiares. Una vez que se nos muestra la respuesta, pasamos a comprobar si la disposición exacta de bordes y manchas coincide con el objeto que ahora «sabemos» que está ahí. Al mismo tiempo, nuestra descripción mental del objeto se vuelve tanto más nítida como más compartida entre las personas. El hallazgo de que más información no siempre es mejor, y de que la confirmación clara o la contradicción clara pueden ser más útiles, ofrece una visión más rica de cómo extraemos significado de vistas incompletas —un proceso en el corazón de cómo vemos en el mundo real, desordenado y ambiguo.

Cita: Linde-Domingo, J., Ortiz-Tudela, J., Völler, J. et al. Determinants of visual ambiguity resolution. Commun Psychol 4, 78 (2026). https://doi.org/10.1038/s44271-026-00441-8

Palabras clave: percepción visual, ambigüedad, reconocimiento de objetos, procesamiento predictivo, imágenes de Mooney