Clear Sky Science · fr

Optimisation multi‑objectif pilotée par apprentissage par renforcement profond et ses applications à la stratégie d’exploitation et de maintenance des infrastructures d’éclairage

2026-02-13 · Retour à l’index

Des éclairages plus intelligents pour des tunnels plus sûrs

En traversant un long tunnel autoroutier, nous tenons pour acquis que les lumières resteront vives et stables. Pourtant, maintenir des milliers de luminaires en fonctionnement sûr, sans gaspiller de l’argent dans des réparations inutiles, relève d’un exercice d’équilibriste complexe. Cet article présente une nouvelle façon de gérer l’éclairage de tunnel qui utilise l’intelligence artificielle pour concilier en continu deux objectifs concurrents : assurer la fiabilité des éclairages pour les conducteurs et maîtriser les coûts globaux.

Pourquoi l’éclairage de tunnel est difficile à gérer

L’éclairage de tunnel est crucial pour la sécurité du trafic. Quand les lampes vieillissent ou que des circuits tombent en panne, le niveau d’éclairement peut chuter brusquement, rendant plus difficile pour les conducteurs l’estimation des distances et des vitesses et augmentant le risque d’accidents. La maintenance traditionnelle repose sur des calendriers fixes, des seuils simples ou des règles à objectif unique telles que « minimiser les coûts » ou « maximiser la durée de vie des lampes ». Ces approches tiennent mal compte des tunnels réels, où les conditions évoluent dans le temps, des milliers de luminaires vieillissent à des rythmes différents, et la sécurité et le coût tirent souvent dans des directions opposées. Les auteurs soutiennent qu’il faut une méthode capable d’apprendre en continu à partir des données et d’adapter les décisions au fur et à mesure de l’évolution du système.

Apprendre à un agent numérique à entretenir les lumières

Les chercheurs construisent un « agent » numérique qui apprend quand et comment réparer, remplacer ou ajuster les éclairages de tunnel en interagissant avec un tunnel simulé. Cet agent repose sur l’apprentissage par renforcement profond, une branche de l’IA où un système tente des actions, observe les résultats et apprend progressivement des stratégies qui maximisent une récompense. Ici, la récompense combine le coût d’exploitation (énergie, main‑d’œuvre, pièces de rechange et pénalités de sécurité) et la santé du système (la probabilité que les lampes continuent de fonctionner de façon fiable). L’agent observe une image détaillée du tunnel : la luminosité de chaque luminaire, s’il est défaillant, l’environnement lumineux alentour et les signes de dégradation au fil du temps. À chaque étape, il choisit des actions pour chaque lampe — ne rien faire, éclairer davantage, atténuer, réparer ou remplacer — et reçoit un retour sur la manière dont ces choix influent à la fois sur le coût et sur la fiabilité.

Modéliser l’usure des lampes

Pour offrir à l’agent un monde d’apprentissage réaliste, les auteurs construisent d’abord un modèle mathématique de la dégradation des éclairages. Ils utilisent un type de processus de marche aléatoire (un processus de Wiener) qui capture à la fois la dérive régulière vers la défaillance et l’incertitude due aux conditions réelles comme les variations de température. À partir de quatre ans de données d’exploitation provenant de plus de 2 000 luminaires LED d’un tunnel de 7 kilomètres dans la province du Yunnan, ils condensent de nombreuses lectures de capteurs en un seul indicateur de « santé » et montrent que ce modèle de dégradation correspond de près à la réalité. Il prédit comment la probabilité de panne augmente dans le temps et combien de vie utile il reste probablement à une lampe. Ce modèle alimente l’environnement simulé où l’agent s’entraîne à des stratégies de maintenance sans mettre en danger de vrais usagers.

Concilier coût et fiabilité simultanément

Une contribution clé de ce travail est de considérer le coût et la fiabilité comme des objectifs d’égale importance plutôt que de les fusionner en un unique indicateur. Les auteurs transforment le problème multi‑objectif en de nombreux sous‑problèmes plus simples, chacun représentant un compromis différent entre faible coût et haute fiabilité. Pour chaque sous‑problème, l’agent d’apprentissage trouve une bonne stratégie ; ensemble, ces stratégies forment une « frontière » des meilleurs compromis possibles. Pour accélérer ce processus, l’équipe permet aux sous‑problèmes voisins de partager ce qu’ils ont appris lorsque leurs compromis sont similaires, au lieu d’entraîner chacun depuis zéro. Ils remodèlent aussi la mesure de fiabilité de sorte que le processus d’apprentissage devienne particulièrement sensible lorsque le système approche de niveaux de défaillance dangereux, incitant l’agent à réagir plus fermement avant que la sécurité ne soit menacée.

Ce que la nouvelle stratégie réalise

Comparée à plusieurs stratégies courantes de maintenance de tunnel — inspections à intervalles fixes, déclencheurs basés sur la luminosité ou règles fondées sur des taux de panne — la nouvelle approche offre un meilleur équilibre entre sécurité et dépenses. Elle réduit les coûts globaux de maintenance et d’exploitation d’environ 30 % tout en maintenant une fiabilité élevée et en empêchant l’agent d’apprentissage de devenir trop prudent ou trop téméraire. Le schéma de partage de paramètres rend aussi l’entraînement plus efficace, en réduisant le temps de calcul et en améliorant la couverture des compromis coût‑fiabilité possibles. Pour le lecteur non spécialiste, la conclusion est que cette méthode utilise les données et l’apprentissage adaptatif pour décider exactement quand et où intervenir dans un tunnel, de sorte que les éclairages restent sûrs pour les conducteurs tout en diminuant le coût supporté par les contribuables ou les exploitants sur la durée de vie du système.

Citation: Wang, Z., Tang, J., Wei, P. et al. Deep reinforcement learning-driven multi-objective optimization and its applications on lighting infrastructure operation and maintenance strategy. Sci Rep 16, 8989 (2026). https://doi.org/10.1038/s41598-026-37811-5

Mots-clés: éclairage de tunnel, maintenance prédictive, apprentissage par renforcement, fiabilité des infrastructures, optimisation multi‑objectif