Clear Sky Science · es

Redes neuronales profundas difractivas anti‑interferencia para el reconocimiento de múltiples objetos

2026-02-03 · Volver al índice

Ver la señal en un mundo ruidoso

La vida moderna está llena de cámaras y sensores que deben identificar las partes importantes de una escena —un peatón en la calzada, un pequeño tumor en una exploración, un objeto sospechoso en una multitud— incluso cuando están rodeadas de desorden. Este artículo presenta un nuevo tipo de red neuronal “totalmente óptica” que realiza gran parte de ese reconocimiento con la propia luz en lugar de con circuitos electrónicos. El resultado es un sistema que puede reconocer objetos seleccionados en escenas concurridas y cambiantes, tratando todo lo demás como ruido de fondo inofensivo, lo que podría permitir una visión más rápida y con mucha menos energía para las máquinas del futuro.

Por qué importan los ordenadores hechos de luz

Los sistemas de aprendizaje profundo convencionales se ejecutan en procesadores electrónicos que mueven corrientes a través de miles de millones de pequeños interruptores. Son potentes pero también lentos cuando las decisiones deben tomarse en microsegundos, y desperdician mucha energía en forma de calor. La luz ofrece una alternativa atractiva: los haces pueden transportar enormes cantidades de información en paralelo, viajan a la velocidad límite y no calientan los circuitos como lo hacen las corrientes eléctricas. Las redes neuronales ópticas explotan estas ventajas modulando la luz con superficies diseñadas de forma precisa para que un haz que las atraviesa “compute” efectivamente la respuesta a un problema de reconocimiento.

De un solo objeto a escenas concurridas

La mayoría de las redes neuronales ópticas existentes están limitadas a tareas simples, como decidir qué dígito único está impreso en el centro de una imagen limpia. Se enfrentan a dificultades cuando aparecen varios objetos juntos, se solapan o se mueven —exactamente las condiciones que se dan en escenas del mundo real. Intentos anteriores para manejar múltiples objetos a menudo requerían reglas estrictas sobre dónde podía aparecer cada objeto o dependían de procesamiento electrónico adicional después de la etapa óptica, lo que socavaba las ventajas de velocidad y consumo energético del enfoque óptico.

Enseñar a la luz a ignorar las distracciones

Los autores introducen una “red neuronal profunda difractiva anti‑interferencia”, o AI D2NN, que aborda directamente las escenas concurridas. Consiste únicamente en dos capas ultrafinas con patrones —metasuperficies— por las que pasa un haz de luz en terahercios. Estas capas se diseñan mediante entrenamiento por ordenador de modo que la luz procedente de los objetos objetivo, en este caso los dígitos manuscritos del 0 al 5, se dirige hacia uno de seis pequeños puntos brillantes en el plano de salida, un punto por dígito. Al mismo tiempo, la luz procedente de todo lo demás —otros dígitos, imágenes de ropa, letras y combinaciones aleatorias de ellos— se enreda intencionadamente en una neblina tenue y casi uniforme que no activa ninguno de los puntos de salida.

Construir y probar un ordenador físico de luz

Para convertir el diseño entrenado en hardware, el equipo fabricó metasuperficies de silicio formadas por pequeños pilares cilíndricos que retrasan la luz que los atraviesa en cantidades precisas. Dispuestos en una rejilla de 100 por 100, estos pilares actúan como neuronas ópticas cuyo efecto combinado realiza la red aprendida. Los investigadores probaron el sistema con haces de terahercios configurados para mostrar mezclas de dígitos objetivo y 40 tipos diferentes de formas interferentes, colocadas en posiciones y tamaños aleatorios para imitar escenas en movimiento y con desorden. En simulaciones por ordenador, la red óptica reconoció correctamente los dígitos elegidos en alrededor del 87 por ciento de estos casos desafiantes, y un montaje experimental real alcanzó casi la misma precisión, demostrando que el concepto funciona fuera de un modelo informático.

Qué significa esto para las máquinas del futuro

En términos sencillos, este trabajo muestra que es posible construir un dispositivo óptico delgado como una página que ve a través del desorden y aún localiza el objeto que le interesa, usando muy poca energía y operando a la velocidad de la luz. Dado que el diseño se basa en propiedades generales de la difracción, la misma idea podría escalarse a diferentes colores o longitudes de onda y combinarse con otros trucos ópticos para manejar muchas más clases de objetos a la vez. Con refinamientos adicionales, redes ópticas anti‑interferencia similares podrían ayudar a vehículos autónomos a identificar rápidamente a los usuarios clave de la vía, asistir a los médicos a señalar características sospechosas en exploraciones en tiempo real o permitir cámaras de seguridad ligeras que detecten amenazas sin procesamiento electrónico pesado.

Cita: Huang, Z., Liu, Y., Zhang, N. et al. Anti-interference diffractive deep neural networks for multi-object recognition. Light Sci Appl 15, 101 (2026). https://doi.org/10.1038/s41377-026-02188-7

Palabras clave: redes neuronales ópticas, reconocimiento de múltiples objetos, metasuperficies, imágenes en terahercios, computación totalmente óptica