Clear Sky Science · pt
Rede transformadora de grafos Q-network para governança colaborativa e tomada de decisão descentralizada em redes com múltiplos cruzamentos
Por que semáforos mais inteligentes importam
Quem dirige numa cidade conhece bem a frustração de pegar sinal vermelho após sinal vermelho, mesmo quando a via parece livre. Essas ondas de parar-e-andar são mais do que um incômodo: desperdiçam tempo, consomem combustível e podem bloquear corredores inteiros quando filas retrocedem por vários cruzamentos. Este estudo explora uma nova forma de fazer com que os semáforos "conversem" entre si para que ondas verdes se formem de maneira mais confiável ao longo de trechos extensos, mesmo quando o tráfego é imprevisível e a malha viária é grande e complexa.

Como as vias urbanas viram uma rede
Os pesquisadores começam tratando o sistema viário urbano como uma rede de pontos conectados. Cada cruzamento é um nó e cada via entre eles é um enlace. Cada controlador de sinal vê apenas o que os sensores locais registram: quantos carros estão esperando, há quanto tempo estão atrasados e qual fase está verde no momento. Nenhum controlador tem uma visão completa da cidade de uma vez, porém cada mudança de sinal afeta veículos que chegarão a outros cruzamentos mais adiante. O desafio é permitir que esses controladores locais cooperem para que os veículos possam percorrer um corredor com o mínimo de paradas desnecessárias, sem deixar de atender ruas laterais e tráfego de conversão.
Ensinando os semáforos a cooperar passo a passo
Em vez de planos de tempo feitos à mão, os autores usam aprendizado por reforço, onde um algoritmo aprende testando ações em um simulador de tráfego e observando os resultados. Cada cruzamento atua como um agente que escolhe qual fase mostrar em seguida e por quanto tempo. A inovação chave é um método chamado Graph Transformer Q-Network, ou GTQN, que decide quais cruzamentos vizinhos são mais relevantes em cada momento. Isso ocorre em duas etapas: primeiro seleciona um pequeno conjunto de vizinhos influentes a montante ou a jusante, depois atribui a cada um uma intensidade de influência com base no estado de tráfego atual. Isso evita que o controlador seja sobrecarregado por informações ruidosas de nós distantes que têm pouco efeito sobre seu próprio tráfego.

Acompanhando o tráfego no espaço e no tempo
Para formar uma onda verde suave, um sinal precisa antecipar veículos que foram liberados vários cruzamentos atrás e que podem levar muitos segundos para chegar. O GTQN aborda isso combinando informações sobre a configuração da rede com um registro de como as condições mudaram ao longo do tempo. Um módulo transformador, originalmente popularizado em modelos de linguagem, é usado para analisar o histórico recente em cada cruzamento e selecionar quais momentos passados são relevantes para a decisão atual. Ao mesmo tempo, um módulo de grafo raciocina sobre as conexões entre cruzamentos. Ao fundir espaço e tempo em um único modelo, o sistema pode aprender como pelotões de veículos se deslocam por um corredor e como alinhar melhor os verdes com suas chegadas.
Definindo metas além de uma única esquina
Se cada semáforo tentasse apenas esvaziar sua própria fila, o desempenho do corredor como um todo poderia ser ruim. Por exemplo, um sinal a jusante poderia encurtar uma fase verde que teria permitido que um grupo de veículos vindo a montante passasse sem parar. Para evitar isso, os autores projetam um objetivo em dois níveis. Cada cruzamento ainda é recompensado por reduzir suas próprias filas e tempos de espera, mas um sinal de treinamento centralizado também penaliza paradas extras sofridas por veículos que percorrem o corredor principal depois de terem sido liberados no ponto de entrada. Durante o treinamento, um módulo central de "governança" usa essa pontuação de corredor para orientar o aprendizado. Após o treinamento, os controladores aprendidos atuam localmente e compartilham apenas mensagens esparsas e direcionadas com seus vizinhos selecionados.
O que as simulações mostram
A equipe testa o GTQN em simulações detalhadas tanto de grades sintéticas quanto de uma malha urbana real de Chengdu, China, incluindo um sistema com 100 cruzamentos. Em comparação com vários métodos avançados de controle multiagente, o GTQN reduz a frequência com que os veículos precisam parar, encurta os tempos de espera e evita que as filas cresçam o suficiente para bloquear cruzamentos a montante. Também mantém desempenho razoável quando algumas mensagens entre cruzamentos são atrasadas ou perdidas, uma propriedade importante para redes de comunicação reais. Estudos de ablação cuidadosos mostram que cada elemento do projeto é relevante: a esparsidade aprendida, o modelo combinado espaço-tempo e o sinal de treinamento centralizado contribuem para uma coordenação robusta.
O que isso significa para o deslocamento cotidiano
Para motoristas, ciclistas e passageiros de ônibus, a ideia por trás deste trabalho é simples: em vez de cada semáforo operar isoladamente, os sinais ao longo de um corredor aprendem a antecipar uns aos outros e a proteger o deslocamento de grupos de veículos. Em simulações de alta fidelidade, isso leva a menos paradas, filas mais curtas e velocidades de viagem mais estáveis ao longo de rotas movimentadas. Embora o estudo ainda esteja limitado a um ambiente virtual e não trate ainda de pedestres, prioridade ao transporte coletivo ou de todas as particularidades do hardware do mundo real, ele demonstra que cooperação cuidadosamente projetada entre muitos controladores locais pode transformar uma sequência caótica de sinais vermelhos em uma jornada mais previsível e eficiente.
Citação: Zhang, H. Graph transformer Q-network for collaborative governance and decentralized decision-making in multi-intersection networks. Sci Rep 16, 15549 (2026). https://doi.org/10.1038/s41598-026-45895-2
Palavras-chave: controle de sinal de tráfego, aprendizado por reforço multiagente, transformador de grafos, progressão de corredor, transporte inteligente