Clear Sky Science · es

Red transformadora de grafos Q para gobernanza colaborativa y toma de decisiones descentralizada en redes de múltiples intersecciones

· Volver al índice

Por qué importan semáforos más inteligentes

Cualquiera que conduzca en una ciudad conoce la frustración de encadenar semáforo tras semáforo en rojo, incluso cuando la vía parece despejada. Esas olas de parada y arranque son más que una molestia: hacen perder tiempo, consumen combustible y pueden colapsar corredores enteros cuando las colas retroceden a través de varias intersecciones. Este estudio explora una nueva forma de hacer que los semáforos "se comuniquen" entre sí para que las ondas verdes se formen con mayor fiabilidad a lo largo de tramos largos, incluso cuando el tráfico es impredecible y la red viaria es grande y compleja.

Figure 1. Los semáforos a lo largo de un corredor urbano se coordinan para desplazar los vehículos con menos detenciones en rojo.
Figure 1. Los semáforos a lo largo de un corredor urbano se coordinan para desplazar los vehículos con menos detenciones en rojo.

Cómo las calles de la ciudad se convierten en una red

Los investigadores comienzan tratando el sistema vial urbano como una red de puntos conectados. Cada intersección es un nodo y cada vía entre ellas es un enlace. Cada controlador de señal solo ve lo que reportan los sensores locales: cuántos vehículos esperan, cuánto tiempo llevan retrasados y qué fase está en verde en ese momento. Ningún controlador dispone de una imagen completa de la ciudad a la vez, y sin embargo cada cambio de luz afecta al tráfico que llegará a otras intersecciones más tarde. El reto es permitir que estos controladores locales cooperen para que los vehículos puedan avanzar por un corredor con el menor número posible de paradas innecesarias, sin dejar de dar servicio a las calles laterales y a los giros.

Enseñar a los semáforos a cooperar paso a paso

En lugar de planes de temporización hechos a mano, los autores usan aprendizaje por refuerzo, donde un algoritmo aprende probando acciones en un simulador de tráfico y observando los resultados. Cada intersección actúa como un agente que elige qué fase mostrar a continuación y durante cuánto tiempo. La innovación clave es un método llamado Red Q Transformadora de Grafos, o GTQN, que decide qué intersecciones vecinas son más relevantes en cada momento. Lo hace en dos etapas: primero selecciona un pequeño conjunto de vecinos ascendentes o descendentes influyentes y luego asigna a cada uno una intensidad de influencia basada en el estado actual del tráfico. Esto evita que el controlador se vea desbordado por información ruidosa de nodos lejanos que tienen poco efecto sobre su propio tráfico.

Figure 2. Intersecciones vecinas comparten señales clave para que las luces verdes se alineen con los grupos de vehículos que llegan a lo largo del tiempo.
Figure 2. Intersecciones vecinas comparten señales clave para que las luces verdes se alineen con los grupos de vehículos que llegan a lo largo del tiempo.

Seguir el tráfico en el espacio y el tiempo

Para formar una onda verde suave, una señal necesita anticipar vehículos que salieron de varias intersecciones atrás y que pueden tardar muchos segundos en llegar. GTQN aborda esto combinando información sobre la disposición de la red con un registro de cómo han cambiado las condiciones a lo largo del tiempo. Un módulo transformador, popularizado originalmente en modelos de lenguaje, se utiliza para revisar la historia reciente en cada intersección y seleccionar qué momentos pasados son relevantes para la decisión actual. Al mismo tiempo, un módulo de grafos razona sobre las conexiones entre intersecciones. Al fusionar espacio y tiempo en un único modelo, el sistema puede aprender cómo se desplazan los pelotones de vehículos a lo largo de un corredor y cómo alinear mejor las verdes con su llegada.

Fijar objetivos más allá de una sola esquina

Si cada semáforo solo intentara vaciar su propia cola, el corredor en su conjunto podría funcionar mal. Por ejemplo, una señal aguas abajo podría interrumpir antes de tiempo una fase verde que habría permitido que un grupo de vehículos procedente de arriba pasara sin detenerse. Para evitar esto, los autores diseñan un objetivo de dos niveles. Cada intersección sigue siendo recompensada por reducir sus propias colas y tiempos de espera, pero una señal de entrenamiento central también penaliza las paradas adicionales que experimentan los vehículos que viajan por el corredor principal después de haber sido liberados desde el punto de entrada. Durante el entrenamiento, un módulo centralizado de "gobernanza" usa esta puntuación a escala de corredor para guiar el aprendizaje. Tras el entrenamiento, los controladores aprendidos actúan de forma local y comparten solo mensajes escasos y dirigidos con los vecinos seleccionados.

Qué muestran las simulaciones

El equipo prueba GTQN en simulaciones detalladas tanto de retículos sintéticos como de una red real de la ciudad de Chengdu, China, incluyendo un sistema con 100 intersecciones. En comparación con varios métodos avanzados de control multiagente, GTQN reduce la frecuencia con la que los vehículos deben detenerse, acorta los tiempos de espera y evita que las colas crezcan lo suficiente como para bloquear intersecciones aguas arriba. También mantiene un rendimiento razonable cuando algunos mensajes entre intersecciones se retrasan o pierden, una propiedad importante para redes de comunicación reales. Estudios de ablación cuidadosos muestran que cada elemento del diseño es importante: la esparsidad aprendida, el modelo combinado espacio-tiempo y la señal de entrenamiento centralizada contribuyen todos a una coordinación robusta.

Qué implica para el viaje cotidiano

Para conductores, ciclistas y usuarios de autobús, la idea central de este trabajo es sencilla: en lugar de que cada semáforo funcione de forma aislada, las señales a lo largo de un corredor aprenden a anticiparse entre sí y a proteger el paso de grupos de vehículos. En simulaciones de alta fidelidad, esto se traduce en menos paradas, colas más cortas y velocidades de viaje más constantes en rutas concurridas. Aunque el estudio todavía se limita a un entorno virtual y aún no aborda peatones, prioridad al transporte público ni todas las peculiaridades del hardware del mundo real, demuestra que una cooperación bien diseñada entre muchos controladores locales puede convertir una serie caótica de luces rojas en un trayecto más predecible y eficiente.

Cita: Zhang, H. Graph transformer Q-network for collaborative governance and decentralized decision-making in multi-intersection networks. Sci Rep 16, 15549 (2026). https://doi.org/10.1038/s41598-026-45895-2

Palabras clave: control de señales de tráfico, aprendizaje por refuerzo multiagente, transformador de grafos, progresión de corredor, transporte inteligente