Clear Sky Science · ru
Комплексный протокол экстренного реагирования при авариях в туннелях с усилением посредством обучения с подкреплением
Почему более умные спасательные операции в туннелях важны
Когда в дорожном туннеле происходит бедствие — будь то авария, пожар или обрушение конструкции — люди могут оказаться запертыми в длинной, задымлённой, лабиринтоподобной трубе с очень немногими выходами. Человеческие спасатели вынуждены спешить внутрь именно в тот момент, когда видимость падает, температура растёт, а завалы блокируют проходы. В этом исследовании рассматривается, как мелкие летающие роботы, или дроны, управляемые продуманной стратегией обучения, могут стать быстрыми и надёжными помощниками в таких опасных ситуациях — находя пострадавших и прокладывая безопасные маршруты, одновременно оберегая людей от наихудших рисков.

Опасные подземные узкие места
Современные города зависят от туннелей для автомагистралей, поездов и коммуникаций, но та же замкнутая конструкция, которая делает их эффективными, делает аварии внутри особенно смертельно опасными. Пожары быстро распространяют дым, накапливаются токсичные газы, а узкие проходы могут забиваться разбитыми автомобилями или осыпавшимся бетоном. Традиционные спасательные бригады часто входят с ограниченной информацией, угадывая, куда идти, в то время как их радиосвязь может плохо работать сквозь толстую породу и бетон. Прошлые катастрофы в Китае и Японии, среди прочих, показали, как сложно вовремя добраться до пострадавших, подчёркивая необходимость инструментов, которые могут видеть и думать наперёд так, как человек не способен.
Обучение дронов исследованию и поиску
Авторы предлагают систему, где несколько автономных дронов работают вместе, чтобы исследовать повреждённый туннель, строить карту в реальном времени и обнаруживать застрявших людей. Вместо следования фиксированному, заранее запрограммированному маршруту каждый дрон учится на опыте с помощью метода, называемого обучением с подкреплением: он пробует действия, наблюдает результаты и постепенно выясняет, какие решения чаще ведут к более быстрым спасениям и меньшему количеству ошибок. Туннель представлен в виде сетки ячеек, и дроны фокусируются на «границах» — местах, где известное пространство встречается с неизвестным, — постепенно расширяя эту границу наружу. На каждом шаге они выбирают из небольшого набора движений по сетке, обновляя свои внутренние таблицы того, какие ходы лучше сработали в схожих ситуациях ранее.

Как заставить много роботов сотрудничать без постоянной связи
Поиск несколькими дронами в одном туннеле создаёт новую задачу: как избежать стычек в воздухе или постоянного повторного сканирования тех же зон, особенно когда связь может быть ненадёжной? Вместо того чтобы давать им центрального «шефа» или постоянные радиосообщения, исследователи разрабатывают простую систему оценок, которая мягко поощряет хорошее групповое поведение. Дрон получает большое вознаграждение при обнаружении нового пострадавшего, но получает штрафы, если тратит время на повторный осмотр одной и той же точки, сталкивается с другим дроном или «проваливается», разрядив батарею. Со временем это подталкивает каждый аппарат к предпочтению неизведанных областей и к избеганию товарищей, так что форма сотрудничества естественным образом возникает из общих последствий, даже несмотря на то, что формально каждый учится самостоятельно.
Заимствование приёмов у волков, чтобы не застрять
Чистое обучение методом проб и ошибок иногда может застрять в безопасных, но второсортных привычках — например, постоянно выбирать знакомый коридор вместо рискованной, но более короткой обходной дороги. Чтобы поддерживать любопытство дронов, команда заимствует идеи из математической модели охоты серых волков стаей. Этот компонент «Grey Wolf Optimization» подтолкивает дронов время от времени имитировать наиболее успешные стратегии поиска, замеченные ранее, при этом оставляя место для исследования. На практике это формирует, какие новые действия пробуются, помогая процессу обучения вырываться из тупиков и адаптироваться, когда туннель изменяется — например, если часть пути внезапно оказывается заблокирована огнём или завалом.
Тестирование подхода в виртуальных катастрофах
Поскольку опасно испытывать непроверенные стратегии в реальных аварийных туннелях, исследователи создают детальные компьютерные симуляции, имитирующие узкие коридоры, тупики, препятствия и разбросанных пострадавших. Они сравнивают свою систему на базе обучения с несколькими другими методами, включая чисто случайное блуждание и отдельную оптимизацию без обучения. Как в тестах с одним дроном, так и с несколькими, их подход обнаруживает пострадавших быстрее, исследует большую часть туннеля с меньшим числом пустых шагов и надёжнее избегает столкновений. Важно, что всё это достигается с помощью лёгких табличных расчётов вместо энергоёмких сетей глубокого обучения, что означает — реалистично запускать систему на небольших бортовых компьютерах во время реального ЧС.
Что это может значить для будущих спасательных операций
Исследование показывает, что рои относительно простых дронов, управляемые тщательно продуманными правилами обучения и некоторыми идеями, почерпнутыми из природы, могут стать ценными партнёрами для пожарных и спасательных отрядов при туннельных катастрофах. Быстро создавая карты задымлённых, меняющихся сред и нацеливаясь на вероятные места нахождения жертв без постоянного человеческого контроля, такие системы могут сэкономить драгоценные минуты реагирования и снизить риски для первооткрывателей. Хотя на данный момент работа основана на симуляциях и идеальных датчиках, она закладывает практическую основу для будущих реальных систем, которым придётся работать в условиях жёстких ограничений по времени, энергии и вычислительным ресурсам в одних из самых сложных спасательных сценариев на Земле.
Цитирование: ur Rehman, H.M.R., Gul, M.J., Younas, R. et al. End-to-end emergency response protocol for tunnel accidents augmentation with reinforcement learning. Sci Rep 16, 6226 (2026). https://doi.org/10.1038/s41598-026-37191-w
Ключевые слова: эвакуация в туннелях, беспилотные дроны для поиска и спасения, обучение с подкреплением для нескольких агентов, роботизированное управление при бедствиях, автономное исследование