Clear Sky Science · ru
Многоцелевое оптимизирование на основе глубокого обучения с подкреплением и его применение к стратегии эксплуатации и обслуживания осветительной инфраструктуры
Умное освещение для более безопасных туннелей
Проезжая через длинный автомагистральный туннель, мы привыкли к тому, что свет будет ярким и стабильным. Между тем поддержание в рабочем состоянии тысяч светильников, без лишних расходов на ненужные ремонты, — это сложный баланс. В этой статье предложен новый способ управления туннельным освещением, который с помощью искусственного интеллекта постоянно балансирует два конкурирующих задания: обеспечивать надежность освещения для водителей и контролировать общие затраты.
Почему туннельное освещение трудно обслуживать
Туннельное освещение критично для безопасности движения. При старении ламп или выходе из строя цепей уровень освещённости может внезапно упасть, что затрудняет водителям оценку расстояния и скорости и увеличивает риск аварий. Традиционное обслуживание опирается на фиксированные графики, простые пороги или правила с одной целью, например «минимизировать затраты» или «максимизировать срок службы лампы». Такие подходы плохо работают в реальных туннелях, где условия меняются со временем, тысячи светильников стареют по-разному, а безопасность и затраты часто противоречат друг другу. Авторы утверждают, что необходим метод, который способен постоянно обучаться на данных и адаптировать решения по мере изменения системы.

Обучение цифрового агента обслуживать освещение
Исследователи создают цифрового «агента», который учится, когда и как ремонтировать, заменять или регулировать туннельные светильники, взаимодействуя с имитируемым туннелем. Этот агент основан на глубоком обучении с подкреплением — ветви ИИ, где система пробует действия, наблюдает результат и постепенно вырабатывает стратегии, максимизирующие награду. В данном случае награда комбинирует эксплуатационные расходы (энергопотребление, труд, запасные части и штрафы за безопасность) и состояние системы (вероятность того, что лампы продолжат работать надежно). Агент видит детализированную картину туннеля: яркость каждого светильника, признаки отказа, окружающую световую среду и признаки деградации во времени. На каждом шаге он выбирает действия для каждой лампы — ничего не делать, повысить яркость, понизить, отремонтировать или заменить — и получает обратную связь о том, как эти решения влияют на расходы и надежность.
Моделирование износа светильников
Чтобы предоставить агенту реалистичную среду для обучения, авторы сначала строят математическую модель деградации туннельных светильников. Они используют тип случайного процесса (процесс Винера), который учитывает как устойчивое дрейфовое снижение работоспособности, так и неопределённость от реальных условий, таких как колебания температуры. На основании четырёх лет эксплуатационных данных более чем 2000 светодиодных приборов в туннеле длиной 7 км в провинции Юньнань они сводят множество показаний датчиков в единый индикатор «состояния» и показывают, что эта модель деградации хорошо согласуется с реальностью. Модель предсказывает, как с течением времени растёт вероятность отказа и какой оставшийся ресурс у лампы. Она используется в симулированной среде, где обучающийся агент отрабатывает стратегии обслуживания без риска для реальных водителей.
Одновременный учёт затрат и надежности
Ключевой вклад работы состоит в том, что затраты и надежность рассматриваются как равнозначные цели, а не сводятся в единую величину. Авторы превращают задачу с несколькими целями в множество более простых подзадач, каждая из которых представляет собой разный компромисс между низкими затратами и высокой надежностью. Для каждой подзадачи агент находит хорошую стратегию; вместе эти стратегии образуют «фронт» лучших возможных компромиссов. Чтобы ускорить процесс, команда позволяет соседним подзадачам делиться накопленным опытом, когда их компромиссы сходны, вместо того чтобы обучать каждую с нуля. Они также преобразуют меру надежности так, чтобы процесс обучения становился особенно чувствительным, когда система находится близко к опасным уровням отказа, подталкивая агента к более энергичным действиям до того, как безопасности будет нанесён ущерб.

Чего достигает новая стратегия
При сравнении с несколькими распространёнными стратегиями обслуживания туннелей — такими как проверки через фиксированные интервалы, триггеры на основе яркости или правила на основе частоты отказов — новый подход обеспечивает лучший баланс между безопасностью и расходами. Он сокращает общие затраты на эксплуатацию и обслуживание почти на 30% при сохранении высокой надежности и предотвращает склонность агента к излишней осторожности или рисковому поведению. Схема совместного использования параметров также делает обучение более эффективным, уменьшая вычислительное время и улучшая покрытие возможных соотношений затрат и надежности. Для непрофессионала главное — этот метод использует данные и адаптивное обучение, чтобы точно решать, когда и где вмешиваться в туннеле, так что освещение остается безопасным для водителей, а налогоплательщики или операторы платят меньше в течение жизненного цикла системы.
Цитирование: Wang, Z., Tang, J., Wei, P. et al. Deep reinforcement learning-driven multi-objective optimization and its applications on lighting infrastructure operation and maintenance strategy. Sci Rep 16, 8989 (2026). https://doi.org/10.1038/s41598-026-37811-5
Ключевые слова: туннельное освещение, предиктивное обслуживание, обучение с подкреплением, надежность инфраструктуры, многоцелевое оптимизирование