Clear Sky Science · nl

Door deep reinforcement learning aangestuurde multi-objectieve optimalisatie en de toepassing op exploitatie- en onderhoudsstrategieën voor verlichtingsinfrastructuur

2026-02-13 · Terug naar het overzicht

Slimmere verlichting voor veiligere tunnels

Als we door een lange snelwegtunnel rijden, gaan we ervan uit dat de verlichting helder en constant blijft. Het operationeel houden van duizenden armaturen zonder onnodige uitgaven aan reparaties is echter een complexe evenwichtsoefening. Dit artikel presenteert een nieuwe manier om tunnelverlichting te beheren met behulp van kunstmatige intelligentie die continu twee concurrerende doelen afweegt: de betrouwbaarheid van de verlichting voor weggebruikers garanderen en de totale kosten beheersbaar houden.

Waarom tunnelverlichting moeilijk te beheren is

Tunnelverlichting is cruciaal voor verkeersveiligheid. Als lampen verouderen of circuits uitvallen, kan de lichtsterkte plotseling dalen, waardoor het moeilijker wordt voor bestuurders om afstand en snelheid in te schatten en het risico op ongevallen toeneemt. Traditioneel onderhoud berust op vaste schema’s, eenvoudige drempels of eendimensionale regels zoals ‘kosten minimaliseren’ of ‘lamplevensduur maximaliseren’. Deze benaderingen houden slecht stand in echte tunnels, waar omstandigheden in de tijd veranderen, duizenden armaturen met verschillende snelheden verouderen en veiligheid en kosten vaak tegenstrijdige prioriteiten zijn. De auteurs stellen dat er behoefte is aan een methode die continu van data leert en beslissingen aanpast naarmate het systeem verandert.

Een digitaal agent leren om de verlichting te onderhouden

De onderzoekers bouwen een digitale ‘agent’ die leert wanneer en hoe te repareren, te vervangen of de verlichting bij te stellen door te interageren met een gesimuleerde tunnel. Deze agent is gebaseerd op deep reinforcement learning, een tak van AI waarbij een systeem acties uitprobeert, de uitkomsten observeert en geleidelijk strategieën ontwikkelt die een beloning maximaliseren. In dit geval combineert de beloning operationele kosten (energieverbruik, arbeid, reserveonderdelen en veiligheidsboetes) en systeemgezondheid (de kans dat lampen betrouwbaar blijven werken). De agent ziet een gedetailleerd beeld van de tunnel: de helderheid van elk armatuur, of het faalt, de omgevingsverlichting en aanwijzingen voor degradatie in de tijd. In elke stap kiest hij acties voor elke lamp—niets doen, feller zetten, dimmen, repareren of vervangen—en ontvangt feedback over hoe die keuzes zowel kosten als betrouwbaarheid beïnvloeden.

Het vastleggen van hoe lampen verslijten

Om de agent een realistische leeromgeving te geven, bouwen de auteurs eerst een wiskundig model van hoe tunnelverlichting degradeert. Ze gebruiken een type stochastisch proces (een Wiener-proces) dat zowel de geleidelijke aandrift richting falen als de onzekerheid door realistische omstandigheden zoals temperatuurschommelingen vastlegt. Met vier jaar operationele data van meer dan 2.000 LED-armaturen in een 7 kilometer lange tunnel in de provincie Yunnan condenseren ze vele sensormetingen tot één ‘gezondheids’-indicator en tonen ze aan dat dit degradatiemodel goed overeenkomt met de werkelijkheid. Het voorspelt hoe de faalkans in de tijd toeneemt en hoeveel resterende levensduur een lamp waarschijnlijk nog heeft. Dit model voedt de gesimuleerde omgeving waarin de leeragent onderhoudsstrategieën oefent zonder echte weggebruikers in gevaar te brengen.

Kosten en betrouwbaarheid tegelijkertijd in balans brengen

Een belangrijke bijdrage van het werk is dat kosten en betrouwbaarheid als gelijkwaardige doelen worden behandeld in plaats van samengevoegd tot één enkel getal. De auteurs herschikken het meerdoelprobleem in vele eenvoudigere subproblemen, elk representatief voor een andere afweging tussen lage kosten en hoge betrouwbaarheid. Voor elk subprobleem vindt de leeragent een goede strategie; samen vormen deze strategieën een ‘frontier’ van best mogelijke compromissen. Om dit proces te versnellen laat het team aangrenzende subproblemen delen wat ze hebben geleerd wanneer hun afwegingen vergelijkbaar zijn, in plaats van elk subprobleem volledig vanaf nul te trainen. Ze vormen ook de betrouwbaarheidsmaat zodanig af dat het leerproces bijzonder gevoelig wordt zodra het systeem zich nabij gevaarlijke faalniveaus bevindt, waardoor de agent wordt aangestuurd om eerder en krachtiger te reageren voordat de veiligheid in het gedrang komt.

Wat de nieuwe strategie oplevert

Bij vergelijking met verschillende gebruikelijke tunnelonderhoudsstrategieën—zoals inspecties op vaste intervallen, helderheidsgebaseerde triggers of regels gebaseerd op faalpercentages—biedt de nieuwe benadering een betere balans tussen veiligheid en uitgaven. Ze verlaagt de totale onderhouds- en bedrijfskosten met bijna 30 procent terwijl de betrouwbaarheid hoog blijft en voorkomt dat de leeragent te voorzichtig of te roekeloos wordt. Het parametersharing‑schema maakt training ook efficiënter, vermindert rekentijd en verbetert de dekking van mogelijke kosten‑betrouwbaarheidsafwegingen. Voor een leek is de kernboodschap dat deze methode data en adaptief leren gebruikt om precies te beslissen wanneer en waar in een tunnel ingegrepen moet worden, zodat de verlichting veilig blijft voor bestuurders terwijl belastingbetalers of exploitanten over de levensduur minder kosten dragen.

Bronvermelding: Wang, Z., Tang, J., Wei, P. et al. Deep reinforcement learning-driven multi-objective optimization and its applications on lighting infrastructure operation and maintenance strategy. Sci Rep 16, 8989 (2026). https://doi.org/10.1038/s41598-026-37811-5

Trefwoorden: tunnelverlichting, predictief onderhoud, reinforcement learning, betrouwbaarheid van infrastructuur, multi-objectieve optimalisatie