Clear Sky Science · ru
Анализ применимости ансамблевых методов на деревьях для моделей прогнозирования загрязнения воздуха
Почему для чистого воздуха нужны более умные прогнозы
Жители больших городов часто просыпаются и задумываются, безопасно ли выходить на пробежку, ехать на работу или позволить детям играть на улице. Приложения погоды теперь показывают индексы качества воздуха рядом с температурой, но эти цифры хороши ровно настолько, насколько хороши модели, стоящие за ними. В этом исследовании поставлен практический вопрос с реальными последствиями: какие из современных инструментов искусственного интеллекта лучше всего предсказывают сразу несколько основных загрязнителей воздуха и почему?
Отслеживание городского воздуха день за днём
Исследователи сосредоточились на четырёх крупнейших муниципалитетах Китая — Пекине, Шанхае, Тяньцзине и Чунцине — поскольку они охватывают разные климатические и загрязняющие сценарии, от зимнего смога до летнего озона. Они собрали более пяти тысяч суточных записей за 2021–2024 годы, каждая из которых объединяла измерения шести ключевых загрязнителей (включая мелкие частицы, пыль, диоксид азота, диоксид серы, угарный газ и озон) с метеоданными: температурой, влажностью, ветром, осадками и давлением. Чтобы лучше использовать эти наблюдения, авторы добавили дополнительные подсказки: как загрязнение предыдущих дней может переноситься вперёд, как температура и ветер взаимодействуют при рассредоточении загрязнённого воздуха, и как комбинированные показатели частиц и газов могут точнее отражать риски для здоровья.

Обучение цифровых «деревьев» читать воздух
Вместо традиционных физически ориентированных моделей погоды команда обратилась к семейству методов, основанных на деревьях в машинном обучении. Эти алгоритмы принимают решения, многократно разделяя данные на ветви — немного в духе игры «двадцать вопросов», которая уточняет ответ шаг за шагом. В исследовании сравнивали три варианта: простое решающее дерево; случайный лес, усредняющий результаты множества деревьев для сглаживания шума; и градиентный бустинг, который строит деревья последовательно, постепенно исправляя предыдущие ошибки. Учёные тщательно настраивали каждый метод и использовали стратегию тестирования с учётом времени, чтобы модели обучались на прошлых днях и оценивались на последующих, имитируя реальные условия прогнозирования.
Какие модели лучше для каких загрязнителей
Сопоставление показало, что универсального победителя нет, но выделяются сильные кандидаты. Случайные леса оказались исключительно точны для мелких и крупных частиц и для диоксида серы, объясняя примерно 99 процентов вариации их уровней — близко к пределу измерений приборов. Для угарного газа и диоксида азота форма градиентного бустинга почти догнала случайный лес, что указывает на то, что поэтапный подход исправления хорошо подходит для выбросов, связанных с дорожным движением и сжиганием, которые резко растут и падают. Удивительно, но простое решающее дерево, несмотря на свою простоту, показало достойные результаты в прогнозировании озона — загрязнителя, образующегося под действием солнечной радиации и часто демонстрирующего пороговые закономерности, которые правила ветвления могут улавливать.
Заглядывая внутрь «чёрного ящика»
Чтобы сделать эти мощные модели полезными для политики, авторам нужно было показать не только насколько хорошо они предсказывают, но и почему. Они использовали технику SHAP, которая присваивает каждому входному признаку — например температуре, скорости ветра или другому загрязнителю — вклад в каждом прогнозе. Этот анализ выявил некоторые показательные связи. Угарный газ оказался ключевым помощником в образовании мелких частиц, что согласуется с его ролью маркёра неполного сгорания, производящего пары, формирующие частицы. Температура сильно способствовала образованию озона, отражая, как жаркие солнечные дни ускоряют его производство. Влажный воздух во взаимодействии с диоксидом серы, как правило, сдерживал рост частиц, а сильный ветер помогал очищать мелкие частицы до определённого порога, после которого турбулентное смешивание могло фактически удерживать их локально. Эти закономерности связывают математику с реальными атмосферными процессами и подсказывают направления для прицельных мер контроля.

От исследовательского кода к городским системам оповещения
Несмотря на впечатляющую точность, авторы отмечают, что модели всё ещё испытывают трудности в самые тяжёлые смоговые эпизоды и ограничены грубыми описаниями источников выбросов и относительно коротким временным окном данных. Они предлагают сочетать традиционные симуляции погода–химия с машинным обучением и использовать выводы SHAP для проектирования более умных аварийных ответов при резких всплесках загрязнения. Их подход уже применяется в региональной системе оповещения о качестве воздуха, обслуживающей Пекин и соседние города. Проще говоря, исследование показывает, что тщательно подобранный и хорошо объяснённый искусственный интеллект может дать городским властям более ранние и надёжные предупреждения о плохих днях воздуха — и более ясные рекомендации, с каких источников начинать борьбу в первую очередь.
Цитирование: Zhu, X., Li, B., Cao, Y. et al. Applicability analysis of tree-based ensemble learning for air pollutant prediction models. Sci Rep 16, 9602 (2026). https://doi.org/10.1038/s41598-025-32652-0
Ключевые слова: прогнозирование качества воздуха, городское загрязнение воздуха, модели машинного обучения, случайный лес, многокомпонентное предсказание загрязнений