Clear Sky Science · es

NEOSTI - un sensor de imagen híbrido electrónico-opto neuromórfico espacio-temporal

· Volver al índice

Por qué importa un ojo electrónico más inteligente

Desde coches autónomos hasta robots domésticos, las máquinas necesitan cada vez más ver el mundo con claridad y reaccionar rápido sin consumir enormes cantidades de energía. Las cámaras digitales actuales capturan imágenes nítidas pero luego deben enviar grandes volúmenes de datos a chips remotos o servidores en la nube para procesarlos a fondo, lo que cuesta tiempo y energía. Este artículo presenta NEOSTI, un diminuto sistema de cámara inspirado en el ojo humano que puede detectar, comprimir y comprender escenas visuales directamente en un chip, prometiendo una visión más rápida y eficiente para dispositivos futuros.

Figure 1. Un chip de cámara pequeño inspirado en el ojo convierte escenas del mundo real en decisiones simples en el propio chip con muy bajo consumo energético.
Figure 1. Un chip de cámara pequeño inspirado en el ojo convierte escenas del mundo real en decisiones simples en el propio chip con muy bajo consumo energético.

Cómo nuestros ojos inspiran la nueva visión por máquina

El ojo humano maneja enormes flujos de información visual con una eficiencia notable. Más de 130 millones de células fotosensibles en la retina captan la luz entrante, pero un procesamiento inteligente en la propia retina comprime esos datos más de cien veces antes de enviarlos por el nervio óptico. La retina también gestiona con facilidad la luz solar intensa y la débil luz estelar, consumiendo solo unos pocos miliwatts. En contraste, la mayoría de los sistemas de visión por máquina dependen de sensores de imagen convencionales que simplemente registran la intensidad de píxeles y remiten imágenes en bruto a procesadores potentes, consumiendo mucha más energía y teniendo dificultades para alcanzar los tiempos de respuesta de fracción de segundo necesarios para robots, drones o coches en movimiento.

Una cámara diminuta que piensa mientras mira

NEOSTI (siglas de Neuromorphic Electronic Opto Spatial Temporal Imager) incorpora varios trucos de la biología para abordar estos límites. En lugar de tratar el sensing y el cómputo como pasos separados, NEOSTI los integra. Primero, una máscara óptica con patrón se coloca delante del chip y actúa como un filtro integrado sin lente, realizando una especie de selección deslizante sobre la escena antes de que la luz llegue al sensor. Esto reduce la cantidad de información que debe procesarse después. A continuación, píxeles especializados convierten la luz en pulsos de forma no lineal que se asemeja a la respuesta de los bastones y conos del ojo, ampliando su rango útil desde ambientes muy oscuros hasta muy brillantes. Finalmente, una red neuronal compacta integrada directamente en el chip analiza los patrones resultantes para reconocer formas, prendas de vestir, posiciones de los ojos o incluso acciones humanas en clips de video cortos.

Luz, pulsos y razonamiento simple en el chip

Dentro de NEOSTI, cada píxel hace más que medir brillo. Cuando la luz incide en un píxel, el voltaje cae hasta que dispara un pulso cuya anchura depende de la intensidad lumínica, sustituyendo la típica señal de voltaje continua por una señal temporal más sencilla de gestionar en lógica digital. Al desplazar lentamente el punto de disparo durante cada exposición, los píxeles imitan el comportamiento adaptativo del ojo, manteniéndose sensibles en escenas oscuras y evitando la saturación en condiciones muy brillantes. Directamente bajo el área de detección, pequeños elementos de procesamiento comparan píxeles vecinos sumando o restando sus recuentos de pulsos, eliminando fondos redundantes y resaltando bordes y movimiento. Una tubería de hardware luego pasa estos resultados por pasos simples que recuerdan capas de una red neuronal, reduciendo gradualmente los datos mientras conserva las características más informativas.

Poniendo el sistema a prueba

Los investigadores evaluaron NEOSTI en varias tareas conocidas de imagen y vídeo. A pesar de su modesta resolución y bajo consumo, el chip clasificó correctamente dígitos manuscritos, artículos de moda, dibujos simples e imágenes de ojos sintéticas con precisiones superiores al 90 por ciento en la mayoría de los casos. También procesó un conjunto de vídeo de personas realizando acciones como correr, saltar y agacharse, donde alcanzó aproximadamente un 91 por ciento de precisión. Pruebas en las que se activó solo la máscara óptica o solo la electrónica en chip mostraron que ambas partes son necesarias; usar el sistema completo mejoró la precisión en más de diez puntos porcentuales respecto a usar solo una parte. NEOSTI también mantuvo un rendimiento estable a medida que se degradaba la calidad de la imagen, lo que sugiere que el filtrado óptico frontal y la red neuronal en el chip ayudan al sistema a lidiar con ruido y poca luz.

Figure 2. Sensor inteligente en capas transforma la luz filtrada en pulsos y patrones sencillos que una red integrada puede reconocer.
Figure 2. Sensor inteligente en capas transforma la luz filtrada en pulsos y patrones sencillos que una red integrada puede reconocer.

Qué significa este nuevo ojo electrónico

Para no especialistas, el mensaje clave es que NEOSTI muestra cómo las cámaras del futuro pueden hacer mucho más que capturar imágenes. Al moldear la luz antes de que llegue al sensor, convertir el brillo en señales de pulso robustas y añadir circuitos de aprendizaje simples directamente en el chip, NEOSTI se comporta más como un ojo y un cerebro miniaturizados combinados. Puede reconocer patrones y acciones usando mucha menos energía y hardware que las configuraciones tradicionales que dependen de grandes procesadores externos. Aunque se necesita trabajo adicional para aumentar la resolución y añadir color, este enfoque apunta hacia módulos de visión compactos y de bajo consumo que podrían otorgar a las máquinas cotidianas una vista más natural y reactiva.

Cita: Liu, T., Huang, Z., Wang, X. et al. NEOSTI - a neuromorphic electronic-opto spatial-temporal hybrid image sensor. Nat Commun 17, 4440 (2026). https://doi.org/10.1038/s41467-026-71091-x

Palabras clave: visión neuromórfica, sensor de imagen, computación óptica, IA en el borde, robótica de bajo consumo