Clear Sky Science · pl

Analiza przydatności algorytmów zespołowych opartych na drzewach dla modeli prognozowania zanieczyszczeń powietrza

· Powrót do spisu

Dlaczego czystsze powietrze potrzebuje mądrzejszych prognoz

Mieszkańcy dużych miast często budzą się, zastanawiając się, czy powietrze na zewnątrz nadaje się na jogging, dojazd do pracy czy zabawę dzieci na dworze. Aplikacje pogodowe pokazują dziś indeksy jakości powietrza obok temperatury, ale te liczby są tyle warte, ile modele, które za nimi stoją. Badanie stawia praktyczne pytanie z realnymi konsekwencjami: które współczesne narzędzia sztucznej inteligencji najlepiej przewidują jednocześnie kilka głównych zanieczyszczeń powietrza i dlaczego?

Śledzenie miejskiego powietrza dzień po dniu

Naukowcy skupili się na czterech z największych jurysdykcji Chin — Pekinie, Szanghaju, Tianjinie i Chongqingu — ponieważ obejmują różne klimaty i wzorce zanieczyszczeń, od zimnego smogu po letni ozon. Zebrali ponad pięć tysięcy dziennych rekordów z lat 2021–2024, każdy łączący pomiary sześciu kluczowych zanieczyszczeń (w tym drobnych cząstek, pyłu, dwutlenku azotu, dwutlenku siarki, tlenku węgla i ozonu) z danymi meteorologicznymi takimi jak temperatura, wilgotność, wiatr, opady i ciśnienie atmosferyczne. Aby maksymalnie wykorzystać te obserwacje, dodali dodatkowe wskazówki: jak zanieczyszczenie z poprzednich dni może się przenosić, jak temperatura i wiatr współdziałają przy rozpraszaniu zanieczyszczonego powietrza oraz jak skumulowane miary cząstek i gazów mogą lepiej odzwierciedlać ryzyko dla zdrowia.

Figure 1
Figure 1.

Nauczanie cyfrowych „drzew” odczytywania powietrza

Zamiast polegać na tradycyjnych, silnie fizycznych modelach pogodowych, zespół sięgnął po rodzinę narzędzi opartych na uczeniu maszynowym wykorzystującym drzewa decyzyjne. Algorytmy te podejmują decyzje, kilkakrotnie dzieląc dane na gałęzie — trochę jak gra w dwadzieścia pytań, która zawęża odpowiedź. W badaniu porównano trzy wersje: prostą drzewo decyzyjne; random forest, który uśrednia wyniki wielu drzew, aby wygładzić szum; oraz gradient boosting, który buduje drzewa jedno po drugim, stopniowo korygując wcześniejsze błędy. Naukowcy starannie dostroili każdą metodę i zastosowali strategię testowania uwzględniającą czas, tak aby modele uczyły się na danych z przeszłości i były oceniane na danych późniejszych, co odzwierciedla rzeczywiste warunki prognozowania.

Które modele błyszczą dla których zanieczyszczeń

Porównanie wykazało, że nie ma jednej metody najlepszej we wszystkim, ale wyłoniły się pewne liderzy. Random forest okazał się wyjątkowo dokładny dla drobnych i grubszych cząstek oraz dla dwutlenku siarki, wyjaśniając około 99 procent zmienności ich poziomów — blisko tego, co same przyrządy pomiarowe potrafią zmierzyć. Dla tlenku węgla i dwutlenku azotu pewna odmiana gradient boostingu niemal dorównywała wydajności lasu, co sugeruje, że podejście stopniowej korekty dobrze pasuje do emisji związanych z ruchem i spalaniem, które gwałtownie rosną i opadają. Co zaskakujące, proste drzewo decyzyjne, mimo prostoty, dobrze radziło sobie w przewidywaniu ozonu — zanieczyszczenia powstającego w procesach napędzanych światłem słonecznym, które często wykazuje wzorce progowe, jakie reguły rozgałęzień potrafią wychwycić.

Zajrzeć do wnętrza czarnej skrzynki

Aby uczynić te potężne modele użytecznymi dla decydentów, autorom zależało nie tylko na tym, jak dobrze przewidują, ale i dlaczego. Użyli techniki zwanej SHAP, która przypisuje każdemu wejściu — takiemu jak temperatura, prędkość wiatru czy inne zanieczyszczenie — wkład do każdej prognozy. Analiza ujawniła kilka pouczających powiązań. Tlenek węgla okazał się kluczowym wskaźnikiem w tworzeniu drobnych cząstek, co zgadza się z jego rolą jako markeru niecałkowitego spalania, które produkuje pary tworzące cząstki. Temperatura silnie zwiększała ozon, odzwierciedlając, jak gorące, słoneczne dni przyspieszają jego powstawanie. Wilgotne powietrze w interakcji z dwutlenkiem siarki miało tendencję do hamowania wzrostu cząstek, a silne wiatry pomagały usuwać drobne cząstki aż do pewnego progu, powyżej którego mieszanie turbulencyjne mogło je lokalnie zatrzymywać. Wzorce te łączą matematykę z rzeczywistymi procesami atmosferycznymi i dają wskazówki do ukierunkowanych działań kontrolnych.

Figure 2
Figure 2.

Od kodu badawczego do miejskich systemów ostrzegania

Mimo imponującej dokładności autorzy zauważają, że modele nadal mają trudności podczas najsilniejszych epizodów smogu i są ograniczone przez przybliżone opisy źródeł emisji oraz stosunkowo krótki horyzont danych. Proponują łączenie tradycyjnych symulacji pogoda–chemia z uczeniem maszynowym oraz wykorzystanie wniosków z SHAP do projektowania sprytniejszych reakcji awaryjnych w czasie nagłych wzrostów zanieczyszczeń. Ich ramy są już stosowane w regionalnym systemie ostrzegania o jakości powietrza obsługującym Pekin i pobliskie miasta. W codziennym ujęciu badanie pokazuje, że starannie dobrana i przejrzysta sztuczna inteligencja może dać urzędnikom miejskim wcześniejsze, bardziej wiarygodne ostrzeżenia o dniach ze złym powietrzem — oraz jaśniejsze wskazówki, które źródła warto najpierw ograniczać.

Cytowanie: Zhu, X., Li, B., Cao, Y. et al. Applicability analysis of tree-based ensemble learning for air pollutant prediction models. Sci Rep 16, 9602 (2026). https://doi.org/10.1038/s41598-025-32652-0

Słowa kluczowe: prognozowanie jakości powietrza, zanieczyszczenie powietrza w miastach, modele uczenia maszynowego, random forest, predykcja wielu zanieczyszczeń