Clear Sky Science · ru
Графовая трансформерная Q-сеть для совместного управления и децентрализованного принятия решений в сетях с несколькими перекрёстками
Почему важны более «умные» светофоры
Каждый, кто ездит по городу, знаком с раздражением от подряд идущих красных сигналов, даже когда дорога кажется пустой. Волны остановок и троганий — это не просто неудобство: они тратят время, повышают расход топлива и могут вызвать пробки по всему коридору, когда очереди отходят назад через несколько перекрёстков. В этом исследовании предложен новый способ заставить светофоры «общаться» друг с другом, чтобы зелёные волны более надёжно формировались на длинных участках дороги, даже когда трафик непредсказуем, а уличная сеть большая и сложная.

Как городские улицы становятся сетью
Авторы начинают с представления городской дорожной системы в виде сети связанных точек. Каждый перекрёсток — это узел, каждая дорога между ними — ребро. Каждый контроллер сигнала видит только то, что показывают локальные датчики: сколько машин ждут, как долго они задерживаются и какая фаза сейчас зелёная. Ни один контроллер не имеет полной картины города одновременно, однако каждое переключение света влияет на трафик, который позже достигнет других узлов. Задача — позволить этим локальным контроллерам сотрудничать так, чтобы транспорт мог двигаться по коридору с минимальным числом лишних остановок, при этом обслуживая боковые улицы и поворачивающее движение.
Обучение светофоров сотрудничеству шаг за шагом
Вместо заранее заданных расписаний авторы используют обучение с подкреплением, когда алгоритм учится, пробуя действия в симуляторе трафика и наблюдая результаты. Каждый перекрёсток действует как агент, который выбирает, какую фазу показать следующей и сколько она будет длиться. Ключевая инновация — метод, названный Графовая Трансформерная Q-Сеть (GTQN), который в каждый момент решает, какие соседние перекрёстки имеют наибольшее значение. Это делается в два этапа: сначала выбирается небольшая подгруппа влиятельных соседей по направлению вверх или вниз по потоку, затем каждому из них присваивается степень влияния на основе текущего состояния трафика. Это предотвращает перегрузку контроллера шумной информацией от удалённых узлов, мало влияющих на его собственный трафик.

Прослеживание трафика в пространстве и времени
Чтобы создать плавную зелёную волну, сигнал должен предвидеть машины, выпущенные несколькими перекрёстками раньше, которые могут добираться несколько секунд. GTQN решает эту задачу, сочетая информацию о топологии сети с записью того, как условия менялись во времени. Модуль трансформера, изначально ставший популярным в языковых моделях, используется для просмотра недавней истории каждого перекрёстка и выделения прошлых моментов, важных для текущего решения. Одновременно графовый модуль рассуждает о связях между перекрёстками. Объединив пространство и время в одной модели, система учится, как платоны автомобилей движутся по коридору и как лучше синхронизировать зелёные фазы с их приходом.
Постановка целей, выходящая за пределы одного перекрёстка
Если бы каждый светофор старался лишь опорожнить свою собственную очередь, работа всего коридора могла бы ухудшиться. Например, downstream-сигнал мог бы преждевременно сократить зелёную фазу, которая позволила бы группе машин, идущей сверху, проехать без остановки. Чтобы избежать этого, авторы предложили двухуровневую целевую функцию. Каждый перекрёсток по-прежнему получает награду за уменьшение собственных очередей и времени ожидания, но центральный обучающий сигнал также штрафует дополнительные остановки, которые испытывают автомобили, едущие по главному коридору после выхода из точки входа. Во время обучения централизованный «модуль управления» использует эту оценку по всему коридору для руководства процессом обучения. После обучения выученные контроллеры действуют локально и обмениваются только разреженными, целевыми сообщениями со своими выбранными соседями.
Что показывают симуляции
Команда тестирует GTQN в подробных симуляциях как синтетических решёток, так и реальной городской сети из Чэнду (Китай), включая систему с 100 перекрёстками. По сравнению с несколькими современными методами многомерного управления GTQN снижает частоту остановок, сокращает время ожидания и не даёт очередям вырасти настолько, чтобы блокировать вышестоящие узлы. Он также сохраняет приемлемую производительность при задержках или потере некоторых сообщений между перекрёстками — важное свойство для реальных коммуникационных сетей. Тщательные исследования абляций показывают, что каждый элемент конструкции важен: выученная разреженность, объединённая пространственно-временная модель и централизованный обучающий сигнал вносят вклад в надёжную координацию.
Что это значит для повседневных поездок
Для водителей, велосипедистов и пассажиров автобусов идея проста: вместо того чтобы каждый светофор работал изолированно, сигналы вдоль коридора учатся предугадывать друг друга и защищать движение групп автомобилей. В высокоточных симуляциях это приводит к меньшему числу остановок, более коротким очередям и более ровной скорости движения на оживлённых маршрутах. Хотя исследование пока ограничено виртуальной средой и ещё не учитывает пешеходов, приоритет наземного транспорта или все аппаратные особенности реального мира, оно демонстрирует, что тщательно спроектированное сотрудничество множества локальных контроллеров может превратить хаотичную последовательность красных огней в более предсказуемое и эффективное путешествие.
Цитирование: Zhang, H. Graph transformer Q-network for collaborative governance and decentralized decision-making in multi-intersection networks. Sci Rep 16, 15549 (2026). https://doi.org/10.1038/s41598-026-45895-2
Ключевые слова: управление светофорами, обучение с многими агентами, графовый трансформер, коридорная прогрессия, интеллектуальный транспорт