Clear Sky Science · es

Optimización multiobjetivo guiada por aprendizaje profundo por refuerzo y sus aplicaciones en la estrategia de operación y mantenimiento de infraestructuras de iluminación

2026-02-13 · Volver al índice

Luces más inteligentes para túneles más seguros

Al conducir por un túnel largo de autopista, damos por sentado que las luces permanecerán brillantes y estables. Sin embargo, mantener miles de luminarias funcionando de forma segura, sin gastar dinero en reparaciones innecesarias, es un ejercicio complejo. Este artículo presenta una nueva forma de gestionar la iluminación de túneles que utiliza inteligencia artificial para equilibrar continuamente dos objetivos contrapuestos: mantener las luces fiables para los conductores y contener los costes totales.

Por qué es difícil gestionar las luces de los túneles

La iluminación de túneles es crítica para la seguridad vial. Cuando las lámparas envejecen o fallan los circuitos, el nivel de iluminación puede caer de forma brusca, lo que dificulta a los conductores juzgar distancias y velocidades y aumenta el riesgo de accidentes. El mantenimiento tradicional se basa en horarios fijos, umbrales simples o reglas de objetivo único como “minimizar coste” o “maximizar la vida útil de la lámpara”. Estos enfoques no funcionan bien en túneles reales, donde las condiciones cambian con el tiempo, miles de luminarias envejecen a ritmos diferentes y la seguridad y el coste suelen tirar en direcciones opuestas. Los autores sostienen que se necesita un método capaz de aprender continuamente a partir de los datos y adaptar las decisiones conforme cambia el sistema.

Enseñar a un agente digital a mantener las luces

Los investigadores construyen un “agente” digital que aprende cuándo y cómo reparar, reemplazar o ajustar las luces del túnel mediante la interacción con un túnel simulado. Este agente se basa en aprendizaje profundo por refuerzo, una rama de la IA donde un sistema prueba acciones, observa los resultados y aprende gradualmente estrategias que maximizan una recompensa. En este caso, la recompensa combina el coste operativo (consumo de energía, mano de obra, repuestos y penalizaciones por seguridad) y la salud del sistema (la probabilidad de que las lámparas sigan funcionando de forma fiable). El agente observa una imagen detallada del túnel: el brillo de cada luminaria, si está fallando, el entorno lumínico circundante y señales de degradación a lo largo del tiempo. En cada paso elige acciones para cada lámpara—no hacer nada, aumentar el brillo, reducirlo, reparar o reemplazar—y recibe retroalimentación sobre cómo estas decisiones afectan tanto al coste como a la fiabilidad.

Modelar cómo se degradan las luces

Para dar al agente un mundo realista donde aprender, los autores primero construyen un modelo matemático de cómo se degradan las luces de túnel. Utilizan un tipo de proceso de caminata aleatoria (un proceso de Wiener) que captura tanto la deriva constante hacia la falla como la incertidumbre derivada de condiciones reales como las variaciones de temperatura. Usando cuatro años de datos de operación de más de 2.000 luminarias LED en un túnel de 7 kilómetros en la provincia de Yunnan, comprimen muchas lecturas de sensores en un único indicador de “salud” y muestran que este modelo de degradación se ajusta estrechamente a la realidad. Predice cómo crece la probabilidad de fallo con el tiempo y cuánta vida útil restante tiene probablemente una lámpara. Este modelo alimenta el entorno simulado donde el agente de aprendizaje practica estrategias de mantenimiento sin poner en riesgo a conductores reales.

Equilibrar coste y fiabilidad al mismo tiempo

Una contribución clave del trabajo es tratar el coste y la fiabilidad como objetivos de igual importancia en lugar de colapsarlos en un solo número. Los autores convierten el problema multiobjetivo en muchos subproblemas más simples, cada uno representando un intercambio distinto entre bajo coste y alta fiabilidad. Para cada subproblema, el agente de aprendizaje encuentra una buena estrategia; en conjunto, estas estrategias forman una “frontera” de los mejores compromisos posibles. Para acelerar este proceso, el equipo permite que subproblemas vecinos compartan lo aprendido siempre que sus compensaciones sean similares, en lugar de entrenar cada uno desde cero. También remodelan la medida de fiabilidad para que el proceso de aprendizaje sea especialmente sensible cuando el sistema está cerca de niveles peligrosos de fallo, impulsando al agente a responder con mayor agresividad antes de que la seguridad se vea amenazada.

Qué logra la nueva estrategia

Al compararla con varias estrategias comunes de mantenimiento de túneles—como inspecciones a intervalos fijos, disparadores basados en el brillo o reglas basadas en tasas de fallo—el nuevo enfoque ofrece un mejor equilibrio entre seguridad y gasto. Reduce los costes de mantenimiento y operación en casi un 30 por ciento manteniendo la fiabilidad alta y evitando que el agente de aprendizaje se vuelva demasiado cauteloso o demasiado temerario. El esquema de compartición de parámetros también hace el entrenamiento más eficiente, reduciendo el tiempo de cómputo y mejorando la cobertura de los posibles intercambios coste‑fiabilidad. Para un público general, la conclusión es que este método usa datos y aprendizaje adaptativo para decidir exactamente cuándo y dónde intervenir en un túnel, de modo que las luces permanezcan seguras para los conductores mientras que los contribuyentes u operadores pagan menos a lo largo de la vida útil del sistema.

Cita: Wang, Z., Tang, J., Wei, P. et al. Deep reinforcement learning-driven multi-objective optimization and its applications on lighting infrastructure operation and maintenance strategy. Sci Rep 16, 8989 (2026). https://doi.org/10.1038/s41598-026-37811-5

Palabras clave: iluminación de túneles, mantenimiento predictivo, aprendizaje por refuerzo, confiabilidad de infraestructuras, optimización multiobjetivo