Clear Sky Science · es

La sintonía neuronal se alinea dinámicamente con los manojos de objetos y texturas a lo largo de la jerarquía visual

2026-03-10 · Volver al índice

Cómo el cerebro ve algo más que cosas

Cuando miras una calle concurrida, tu cerebro extrae al instante significado de un revoltijo de coches, rostros, hojas y sombras. Pero las células individuales del cerebro no se activan sólo por categorías ordenadas como «coche» o «rostro». A menudo responden a muchas imágenes no relacionadas, lo que deja a los científicos preguntándose qué es lo que realmente les importa a estas células. Este estudio usa inteligencia artificial avanzada generadora de imágenes para permitir que neuronas individuales «diseñen» sus imágenes favoritas, revelando cómo el cerebro equilibra la sensibilidad a texturas detalladas con el reconocimiento de objetos completos.

Dos mundos visuales diferentes

Los investigadores trabajaron con dos potentes generadores de imágenes, cada uno con un «acento» visual distinto. Uno, llamado DeePSim, es especialmente bueno produciendo ricas texturas y patrones, pero sus imágenes a menudo carecen de objetos claros y reconocibles. El otro, BigGAN, está entrenado para crear fotos nítidas llenas de elementos distintivos como animales y herramientas. Tratando estos generadores como maneras alternativas de dividir el espacio de imágenes posibles, el equipo pudo preguntar si las células cerebrales se alinean más con una visión centrada en texturas o con una centrada en objetos.

Dejar que las neuronas elijan sus propias imágenes

En macacos, los científicos registraron la actividad de neuronas a lo largo de la vía visual ventral—una cadena de áreas cerebrales que ayuda a convertir la visión en bruto en reconocimiento de objetos. Se centraron en tres estaciones: V1 (corteza visual temprana), V4 (un área intermedia) y PIT (corteza inferotemporal posterior, un área de alto nivel). Durante los experimentos, la tasa de disparo de cada neurona guiaba una búsqueda de bucle cerrado por el espacio de imágenes de cada generador. En secuencias rápidas se mostraban imágenes sintéticas; las que desencadenaban más picos empujaban al generador hacia imágenes similares en la siguiente ronda. Tras muchas generaciones, esta «evolución» producía imágenes altamente activadoras tanto en el espacio de texturas como en el de objetos.

Características locales ocultas, no solo objetos completos

Sorprendentemente, cuando una neurona optimizaba imágenes en el espacio centrado en texturas y en el espacio centrado en objetos, las imágenes finales a menudo parecían globalmente diferentes pero compartían un motivo local específico—como un borde curvado o una mancha de color—en una ubicación similar. Los análisis usando redes neuronales profundas confirmaron que estas imágenes emparejadas eran más parecidas, en el espacio de características, que las imágenes optimizadas para neuronas diferentes. Los mapas espaciales mostraron que la actividad de la neurona se predecía mejor por regiones particulares dentro de las imágenes, lo que sugiere que muchas células responden a bloques constructivos locales recurrentes que pueden aparecer en escenas muy distintas, en vez de a una plantilla rígida de objeto único.

Equilibrio cambiante de texturas a objetos

El equipo preguntó entonces cuán fácilmente podían las neuronas en cada área cerebral «escalar» hasta una respuesta fuerte dentro de cada espacio de imágenes. En las áreas tempranas V1 y V4, la optimización en el espacio de texturas tenía más éxito, escalaba más rápido y alcanzaba respuestas máximas más elevadas que en el espacio de objetos, revelando un claro sesgo hacia las texturas. En PIT, sin embargo, las neuronas funcionaban bien en ambos espacios: podían ser fuertemente estimuladas por imágenes sintéticas tipo textura o tipo objeto, y las velocidades de optimización se volvieron comparables. Mirar el tiempo de respuesta añadió otra vuelta: en PIT, las imágenes basadas en texturas tendían a potenciar respuestas tempranas, mientras que las basadas en objetos activaban con más fuerza disparos posteriores y sostenidos, lo que sugiere que el procesamiento orientado a objetos surge más lentamente en el tiempo.

Mapas de preferencia en el espacio de objetos

Para sondear la forma fina de estas preferencias, los investigadores realizaron experimentos de «sintonía Hessiana» en el espacio latente del generador de objetos. Después de que una neurona alcanzara una respuesta fuerte a una imagen optimizada tipo objeto, muestrearon sistemáticamente imágenes a lo largo de muchas direcciones alrededor de ese punto. Cuando la optimización había encontrado realmente un pico alto, los disparos de la neurona típicamente formaban curvas en forma de campana a lo largo de esas direcciones, aumentando y luego disminuyendo a medida que las imágenes se alejaban de la preferida. Cuando la optimización no había alcanzado un pico sólido, las curvas de sintonía a menudo parecían más bien rampas. Esto muestra que si una neurona parece tener un favorito estrecho o una preferencia gradual puede depender de cuán a fondo busquemos en el enorme espacio de imágenes posibles.

Qué significa esto para entender la visión

En conjunto, el estudio dibuja una imagen de la vía visual ventral como un sistema flexible que empieza favoreciendo las texturas y gradualmente adquiere un dominio igualmente fuerte sobre la estructura de objetos. En lugar de codificar objetos enteros como unidades indivisibles, las neuronas parecen priorizar características locales reutilizables que pueden combinarse en muchas escenas diferentes. Las neuronas de alto nivel en PIT pueden alinearse tanto con una descripción basada en texturas como con una basada en objetos, una versatilidad que las redes artificiales actuales aún luchan por igualar. Para un observador no especializado, el mensaje clave es que nuestros cerebros no son simplemente “detectores de objetos”: son potentes motores de patrones que pueden extraer significado tanto de texturas finas como de formas completas, cambiando el énfasis en el espacio y en el tiempo para sostener la rica experiencia visual que damos por sentada.

Cita: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1

Palabras clave: corteza visual, reconocimiento de objetos, procesamiento de texturas, modelos generativos, sintonía neuronal