Clear Sky Science · pl

MmodalFire: Ciągły multimodalny zbiór danych zawierający wideo i pomiary fizyczne do wykrywania pożarów wewnątrz budynków

2026-02-19 · Powrót do spisu

Dlaczego lepsze alarmy pożarowe mają znaczenie

W dużych biurach, centrach danych czy budynkach mieszkalnych kilka minut może przesądzić o tym, czy zdarzenie pozostanie drobnym incydentem, czy przerodzi się w śmiertelny pożar. Tradycyjne czujki dymu lub ciepła montowane w suficie często reagują dopiero po tym, jak dym wzniesie się lub pomieszczenie się ogrzeje, co może zająć cenny czas. Tymczasem nowoczesne kamery monitorujące obserwują te same przestrzenie ciągle, ale mogą być zmylone przez mgłę, parę czy jaskrawe odbicia. Niniejszy artykuł przedstawia nowy rodzaj zasobu: starannie zaprojektowany zbiór danych łączący materiał wideo z pomiarami fizycznymi, dzięki czemu systemy sztucznej inteligencji mogą nauczyć się wykrywać pożary wewnątrz budynków szybciej i bardziej niezawodnie niż każda z metod osobno.

Nowe spojrzenie na pożary wewnętrzne

Autorzy przedstawiają MmodalFire, publiczny zbiór danych stworzony specjalnie do badań nad wykrywaniem pożarów wewnątrz budynków. Zamiast polegać wyłącznie na wideo lub samodzielnych czujnikach, MmodalFire rejestruje oba rodzaje sygnałów jednocześnie. Każdy eksperyment obejmuje wysokiej rozdzielczości wideo oraz sześć rodzajów wyjść z czujników, w tym gęstość dymu, temperaturę oraz promieniowanie w kilku pasmach podczerwieni i ultrafioletu. Każda krótka sekwencja jest oznaczona po prostu jako „pożar” lub „brak pożaru”, co pozwala modelom komputerowym nauczyć się rozróżniać niebezpieczne zdarzenia od nieszkodliwych podobieństw. Udostępniając ten zbiór danych bezpłatnie, zespół chce dać badaczom wspólne, realistyczne pole testowe do porównywania algorytmów wykrywania pożarów.

Jak zbudowano eksperymenty

Aby stworzyć MmodalFire, badacze przygotowali identyczne pomieszczenia testowe w dwóch laboratoriach w Chinach. Każde pomieszczenie miało wielkość małego biura, z sztywnymi ścianami, czujnikami zamontowanymi na suficie oraz kamerą w jednym narożniku dla pełnego widoku. Przeprowadzili kontrolowane spalania czterech powszechnych materiałów wewnętrznych: drewna, liny bawełnianej, pianki poliuretanowej (jak wypełnienie mebli) oraz n‑heptanu (czystopalnego płynu podobnego do niektórych paliw). Aby upewnić się, że system potrafi też rozpoznać, co nie jest pożarem, stworzyli dwa warunki zakłócające: dym sceniczny z suchym lodem oraz mgiełkę wodną z domowego nawilżacza. Podczas każdego testu kamera i czujniki działały ciągle, rejestrując klatki wideo i odczyty numeryczne z precyzyjnymi znacznikami czasu.

Uchwycenie zmienności z rzeczywistego świata

Rzeczywiste budynki różnią się oświetleniem, ruchem powietrza i tym, jak blisko czujnika może znajdować się ognisko pożaru, więc zespół celowo zmieniał te czynniki. Regulowali prędkość powietrza od bezruchu do delikatnych bryz, przełączali się między jasnym a przyciemnionym oświetleniem, zmieniali ilość paliwa oraz przesuwali ogień bliżej lub dalej od czujników i ścian. W niektórych próbach ogień wytwarzał gęsty czarny dym i szybkie nagrzewanie; w innych, jak przy n‑heptanie, płomienie były wyraźne przy niewielkiej ilości dymu. W przypadkach negatywnych mgiełka wodna i para z suchego lodu wyglądały w obrazie kamery bardzo podobnie do dymu, ale nie wpływały znacząco na pomiary fizyczne. Łącznie zebrano 65 sekwencji wideo — ponad 700 minut materiału — z synchronizowanymi danymi z czujników, a następnie pocięto je na wiele nakładających się pięciosekundowych klipów, z których każdy mógł posłużyć jako pojedynczny przykład treningowy.

Nauczanie maszyn łączenia zmysłów

Korzystając z MmodalFire, autorzy zbudowali i przetestowali kilka modeli komputerowych. Niektóre modele używały tylko wideo, inne tylko odczytów czujników, a najbardziej zaawansowane łączyły oba źródła. Gałąź wideo opierała się na lekkiej sieci głębokiego uczenia dostosowanej do ruchu i wyglądu w krótkich klipach. Gałąź czujników traktowała sześć strumieni numerycznych jako małą siatkę zmieniającą się w czasie i wykorzystywała nowoczesne techniki, takie jak transformatory, do rozumienia ich wzorców. Moduł fuzji łączył te dwa strumienie, pozwalając modelowi „zdecydować”, jaką wagę przypisać każdemu źródłu w różnych warunkach. W ocenie na oddzielnych danych testowych model z fuzją wyraźnie przewyższał podejście oparte na jednym źródle, szczególnie w trudnych sytuacjach, takich jak dym, który jeszcze nie dotarł do czujników sufitowych, lub nieszkodliwa para wyglądająca na dym w obrazie kamery.

Odporne alarmy dla złożonych przestrzeni

Badanie konkluduje, że starannie synchronizowane dane z wideo i czujników fizycznych mogą sprawić, że alarmy pożarowe wewnątrz budynków będą jednocześnie szybsze i bardziej wiarygodne. Pokazując, że model z fuzją potrafi działać nawet wtedy, gdy kamera jest zasłonięta lub gdy czujniki reagują wolno, praca wskazuje drogę ku inteligentniejszym systemom dla kluczowych obiektów, takich jak elektrownie, serwerownie i budynki o dużej liczbie użytkowników. MmodalFire daje badaczom wspólny, realistyczny zbiór danych do projektowania i porównywania takich systemów, otwierając drogę do następnej generacji alarmów, które używają wielu „zmysłów”, by rozpoznawać realne zagrożenie, a jednocześnie pozostawać ciche wobec codziennej pary i dymu scenicznego.

Cytowanie: Jia, Y., Guo, Y., Chen, Y. et al. MmodalFire: A Continuous Multimodal Dataset Comprising Video and Physical Sensing Data for Detecting Indoor Fires. Sci Data 13, 489 (2026). https://doi.org/10.1038/s41597-026-06810-6

Słowa kluczowe: wykrywanie pożarów wewnątrz budynków, czujniki multimodalne, nadzór wideo, zbiór danych dotyczący bezpieczeństwa pożarowego, alarmy oparte na głębokim uczeniu