Clear Sky Science · nl

Graph-transformer Q-netwerk voor collaboratief bestuur en gedecentraliseerde besluitvorming in multi-kruisingnetwerken

2026-03-31 · Terug naar het overzicht

Waarom slimere verkeerslichten ertoe doen

Iemand die in de stad rijdt kent de frustratie van het achter elkaar tegen rood aanlopen, zelfs als de weg leeg lijkt. Die stop-and-go-golven zijn meer dan een ergernis: ze verspillen tijd, verbruiken extra brandstof en kunnen hele corridors blokkeren wanneer wachtrijen teruglopen over meerdere kruisingen. Deze studie onderzoekt een nieuwe manier om verkeerslichten onderling te laten "praten" zodat groene golven betrouwbaarder ontstaan over lange wegvakken, ook wanneer het verkeer onvoorspelbaar is en het straatnetwerk groot en complex.

Figure 1. Verkeerslichten langs een stadscorridor coördineren om voertuigen soepeler te laten doorrijden met minder stops voor rood licht.

Hoe stadstraten een netwerk worden

De onderzoekers beginnen met het beschouwen van een stedelijk wegennet als een netwerk van verbonden punten. Elke kruising is een knooppunt en elke weg daartussen een verbinding. Elke signaalcontroller ziet alleen wat lokale sensoren melden: hoeveel auto’s wachten, hoe lang ze vertraging hebben en welke fase momenteel groen is. Geen enkele controller heeft tegelijkertijd een volledig stadsbeeld, maar elke verandering van licht beïnvloedt verkeer dat later andere knooppunten bereikt. De uitdaging is deze lokale controllers zó te laten samenwerken dat voertuigen een corridor kunnen afleggen met zo min mogelijk onnodige stops, terwijl ook zijstraten en afslaand verkeer worden bediend.

Het licht leren samenwerken stap voor stap

In plaats van handgemaakte timingplannen gebruiken de auteurs reinforcement learning, waarbij een algoritme leert door acties uit te proberen in een verkeerssimulator en de uitkomsten te observeren. Elke kruising fungeert als een agent die kiest welke fase als volgende getoond wordt en hoe lang. De kerninnovatie is een methode genaamd Graph Transformer Q-Network, of GTQN, die bepaalt welke naburige kruisingen op een gegeven moment het belangrijkst zijn. Dat gebeurt in twee stappen: eerst selecteert het een kleine set invloedrijke upstream- of downstream-buren, vervolgens kent het elk van hen een mate van invloed toe op basis van de huidige verkeerssituatie. Dit voorkomt dat de controller wordt overspoeld door storende informatie van verre knooppunten die weinig effect hebben op zijn eigen verkeer.

Figure 2. Burenkruisingen delen cruciale signalen zodat groene golven zich in de tijd afstemmen op aankomende voertuiggroepen.

Verkeer volgen over ruimte en tijd

Om een vloeiende groene golf te vormen moet een signaal anticiperen op auto’s die enkele kruisingen eerder zijn losgelaten en er veel seconden over kunnen doen om aan te komen. GTQN pakt dit aan door informatie over de netwerktopologie te combineren met een verslag van hoe de omstandigheden in de tijd zijn veranderd. Een transformer-module, oorspronkelijk populair in taalmodellen, wordt gebruikt om recent verleden bij elke kruising te overzien en uit te zoeken welke momenten uit het verleden van belang zijn voor de huidige beslissing. Tegelijkertijd redeneert een graph-module over de verbindingen tussen kruisingen. Door ruimte en tijd in één model te versmelten kan het systeem leren hoe platoons voertuigen zich langs een corridor bewegen en hoe groen het beste op hun aankomst kan worden afgestemd.

Doelen stellen voorbij een enkel kruispunt

Als elk verkeerslicht alleen zou proberen zijn eigen wachtrij leeg te maken, kan de corridor als geheel slecht presteren. Bijvoorbeeld: een downstream-signaal zou een groene fase kunnen inkorten die een groep auto’s uit upstream had toegelaten door te rijden zonder te stoppen. Om dit te voorkomen ontwerpen de auteurs een doelstelling op twee niveaus. Elke kruising wordt nog steeds beloond voor het verminderen van eigen wachtrijen en wachttijden, maar een gecentraliseerd trainingssignaal bestraft ook extra stops die voertuigen op de hoofdroute ervaren nadat ze bij het ingangspunt zijn losgelaten. Tijdens training gebruikt een gecentraliseerde "governance"-module deze corridor-brede score om het leerproces te sturen. Na training handelen de geleerde controllers lokaal en delen ze alleen spaarzame, gerichte berichten met hun geselecteerde buren.

Wat de simulaties aantonen

Het team test GTQN in gedetailleerde simulaties van zowel synthetische rasters als een echt stedelijk netwerk uit Chengdu, China, inclusief een systeem met 100 kruisingen. Vergeleken met diverse geavanceerde multi-agent controlemethoden vermindert GTQN hoe vaak voertuigen moeten stoppen, verkort het wachttijden en voorkomt het dat wachtrijen lang genoeg worden om upstream-knooppunten te blokkeren. Het behoudt bovendien redelijke prestaties wanneer sommige berichten tussen kruisingen vertraagd of verloren raken, een belangrijke eigenschap voor echte communicatienetwerken. Zorgvuldig uitgevoerde ablatiestudies tonen aan dat elk onderdeel van het ontwerp telt: geleerde sparsity, het gecombineerde ruimte-tijdmodel en het gecentraliseerde trainingssignaal dragen allemaal bij aan robuuste coördinatie.

Wat dit betekent voor dagelijks reizen

Voor automobilisten, fietsers en busreizigers is het idee achter dit werk simpel: in plaats van dat elk verkeerslicht geïsoleerd werkt, leren de signalen langs een corridor elkaar te anticiperen en de doorstroming van voertuiggroepen te beschermen. In hoogwaardig gesimuleerde scenario’s leidt dit tot minder stops, kortere wachtrijen en stabielere rijsnelheden langs drukke routes. Hoewel de studie nog beperkt is tot een virtuele omgeving en nog geen voetgangers, prioriteit voor openbaar vervoer of alle eigenaardigheden van echte hardware afhandelt, toont het aan dat zorgvuldig ontworpen samenwerking tussen vele lokale controllers een chaotische reeks rode lichten kan veranderen in een beter voorspelbare en efficiëntere reis.

Bronvermelding: Zhang, H. Graph transformer Q-network for collaborative governance and decentralized decision-making in multi-intersection networks. Sci Rep 16, 15549 (2026). https://doi.org/10.1038/s41598-026-45895-2

Trefwoorden: verkeerslichtregeling, multi-agent reinforcement learning, graph transformer, corridorprogressie, intelligente mobiliteit