Clear Sky Science · ru

Обнаружение огня и дыма в реальном времени с использованием визуальных трансформеров и спатиотемпорального обучения

2026-03-06 · Назад к списку

Почему важны более быстрые предупреждения о пожаре

Пожары в жилых домах, на заводах и в лесах могут стать смертельными за считанные минуты. Сегодня многие сигнализации по‑прежнему полагаются на датчики тепла или дыма, которые срабатывают только после того, как пламя уже устойчиво. В этой статье описана новая система компьютерного зрения, способная практически мгновенно замечать признаки огня и дыма в видеопотоках камер, даже в сложных условиях — при плохой освещённости или сильной дымке. Комбинируя несколько передовых методов искусственного интеллекта в единой модели, авторы стремятся дать пожарным, городским планировщикам и экологическим службам более ранний сигнал — что потенциально может спасти жизни, имущество и экосистемы.

Растущая сложность обнаружения пламени

Современные города и леса всё активнее контролируются камерами, но научить компьютеры надёжно распознавать огонь и дым на фото и видео — задача непростая. Традиционные подходы используют нейросети, хорошо работающие на статичных изображениях или коротких клипах, однако им часто трудно в беспорядочных реальных сценах. Один кадр может показать нечто похожее на дым, которое на самом деле является туманом или выхлопом. Системы, ориентированные на видео, умеют отслеживать, как объекты движутся во времени, но обычно они медленнее и требовательнее к аппаратным ресурсам. В результате ранние модели часто дают ложные срабатывания или пропускают едва заметные, быстро меняющиеся признаки опасности — особенно при слабом свете, плотном дыму или загромождённом фоне.

Гибридный ИИ «наблюдатель» для изображений и видео

Авторы предлагают гибридную модель, рассматривающую задачу обнаружения огня как пространственную и временную одновременно. Для статичных изображений они используют тип нейросети под названием визуальный трансформер, который анализирует картинку как мозаику участков и учится понимать взаимосвязи между удалёнными областями. Это помогает замечать широкие паттерны, такие как струйки дыма, растекающиеся по долине, или разбросанные очаги пламени в лесу. Для видео система опирается на трёхмерную сверточную сеть, которая обрабатывает стопки кадров одновременно, захватывая изменение дыма и огня во времени. Энкодер‑трансформер затем исследует эти изменяющиеся паттерны и концентрирует внимание на моментах и областях, наиболее вероятно указывающих на опасность, вместо того чтобы одинаково взвешивать каждый кадр.

Слияние подсказок и балансировка данных

Ключевой элемент системы — слой слияния, который объединяет детальные подсказки со статичных изображений с паттернами движения из видео. Сочетая эти взаимодополняющие представления, модель лучше различает реальные возгорания и безвредные подобия, такие как блики заката, туман или облака. Исследователи также отметили, что во многих публичных наборах данных примеров пожара значительно больше, чем примеров без пожара, что может сместить модель в сторону избыточных тревог. Чтобы это исправить, они сгенерировали большое разнообразие реалистичных сцен без огня с помощью тщательной аугментации данных — изменяя яркость, кадрируя и зеркально переворачивая изображения, имитируя условия вроде туманных утр или тёмных помещений. Затем модель обучали с функцией потерь, явно уравновешивающей ошибки на случаях с огнём и без него, что улучшило надёжность в повседневном использовании.

Испытание системы

Чтобы оценить эффективность подхода, авторы протестировали его на двух широко используемых наборах данных: одном — почти тысяча статичных изображений из NASA Space Apps Challenge, и другом — видеоролики, связанные с пожарами, с Kaggle. После предобработки и балансировки они обучили и оценили свою гибридную модель вместе с известными базовыми решениями, такими как ResNet, VGG, LSTM, чистые 3D‑сверточные сети и несколько гибридных сочетаний этих методов. Новая система достигла примерно 99,2% точности на изображениях NASA и 98,3% на видеоданных, заметно превосходя традиционные модели, которые обычно показывали результаты в диапазоне от середины 80‑х до середины 90‑х процентов. Она также работала достаточно быстро — десятки миллисекунд на кадр — и имела умеренный размер модели, что делало её пригодной для развёртывания на периферийных устройствах, таких как малые GPU и встроенные платы.

Что это значит для повседневной безопасности

Проще говоря, это исследование показывает, что продуманно спроектированный ИИ может в реальном времени отслеживать видеопотоки и надёжно отвечать на простой, но важный вопрос: «Есть ли здесь сейчас огонь или опасный дым?» Комбинируя широкий визуальный контекст, движение во времени и умное внимание к наиболее показательным деталям, гибридная модель существенно сокращает как пропуски возгораний, так и ложные тревоги. С дальнейшей доработкой и обучением на ещё более разнообразных сценах — таких как плотные городские районы, подземные пространства и экстремальная погода — она может стать практической основой для более умных систем оповещения, сетей мониторинга лесных пожаров и промышленных средств безопасности, реагирующих быстрее и точнее, чем многие современные решения.

Цитирование: Lilhore, U.K., Sharma, Y.K., Venkatachari, K. et al. Real time fire and smoke detection using vision transformers and spatiotemporal learning. Sci Rep 16, 8928 (2026). https://doi.org/10.1038/s41598-026-36687-9

Ключевые слова: обнаружение пожара, обнаружение дыма, компьютерное зрение, модели трансформеров, мониторинг в реальном времени