Clear Sky Science · ru

Ансамблевое обучение для прогнозирования индекса качества воздуха: интеграция градиентного бустинга, XGBoost и стэкинга с интерпретируемостью на основе SHAP

· Назад к списку

Почему для чистого воздуха нужны более точные прогнозы

Загрязнение воздуха незаметно формирует нашу повседневную жизнь — от воздуха, которым мы дышим по дороге на работу, до здоровья детей и пожилых людей. При этом большинство из нас видят в приложении лишь одно число индекса качества воздуха, не зная, как оно предсказано и насколько надежно. В этой работе рассматривается новый, более интеллектуальный способ прогнозирования Индекса Качества Воздуха (AQI) с помощью команды взаимосвязанных моделей. Делая прогнозы точнее и прозрачнее, исследование открывает путь к более своевременным предупреждениям о рисках для здоровья, лучшему городскому планированию и более осознанному поведению в повседневной жизни.

Как грязный воздух влияет на людей и города

Исследование начинается с описания факторов современного образа жизни, усиливающих загрязнение воздуха. Быстрый рост городов, интенсивное движение, масштабное строительство и сжигание ископаемого топлива выбрасывают в атмосферу смесь вредных веществ. Мелкие частицы (PM2.5 и PM10), газы — озон, оксиды азота, диоксид серы и монооксид углерода — в совокупности повреждают легкие, создают нагрузку на сердце и связаны с миллионами преждевременных смертей ежегодно. Помимо вреда для здоровья, загрязненный воздух портит урожаи, разрушает здания, снижает производительность труда и усугубляет изменение климата. Поскольку эти последствия масштабны и затратны, городам срочно нужны надежные прогнозы, которые могут заранее предупреждать людей, управлять движением и промышленными ограничениями и поддерживать долгосрочную экологическую политику.

Превращение сложных данных о воздухе в одно число, отражающее риск для здоровья

AQI сводит множество измерений в единую шкалу от чистого до опасного воздуха. Для прогнозирования этого показателя исследователи использовали крупный открытый набор данных с Тайваня: более 4,6 миллиона почасовых записей с 74 наблюдательных станций, собранных в период с 2016 по 2024 год. Каждая запись содержит уровни ключевых загрязнителей, краткосрочные средние значения, отражающие недавнее воздействие, и метеоусловия, такие как скорость и направление ветра. Команда сначала очистила данные, тщательно обработала пропуски и экстремальные значения, и стандартизировала показатели, чтобы ни одно измерение не доминировало над другими. Затем были выделены отдельные части для обучения, настройки и тестирования, а также смоделировано реальное время путем проверки работы моделей на более поздних годах, которых алгоритмы ранее не видели.

Figure 1
Figure 1.

Создание команды моделей вместо доверия одной

Вместо опоры на одну предиктивную формулу авторы построили ансамбль — систему взвешенного голосования, комбинирующую несколько мощных методов, основанных на древовидных моделях. Включены Gradient Boosting, XGBoost, LightGBM и CatBoost, каждый из которых изучает закономерности, строя множество мелких решающих деревьев и исправляя предыдущие ошибки. Ансамбль придает больший вес наиболее сильным исполнителям (больше весу у Gradient Boosting, чуть меньше у CatBoost и т. п.), подобно тому, как в панели прогнозов погоды больше прислушиваются к самым точным синоптикам. С помощью строгих процедур поиска и перекрестной проверки авторы тщательно настроили параметры каждой модели, чтобы в сочетании они улавливали тонкие нелинейные связи между загрязнителями, погодой и AQI, не переобучаясь на прошлых данных.

Превосходство над глубинным обучением и заглядывание внутрь "черного ящика"

Авторы сравнили этот ансамбль с широким набором альтернатив — от простой линейной регрессии и базовых решающих деревьев до современных систем глубокого обучения, таких как LSTM, CNN-LSTM и трансформеры. По ключевым метрикам ошибки прогнозирования ансамбль последовательно показывал лучшие результаты. Он достиг очень низкой ошибки и объяснил более 99% вариации AQI на невидимых данных, и практически не терял в точности при тестировании на будущих периодах, что свидетельствует о его устойчивости к меняющимся условиям. Чтобы раскрыть «черный ящик», команда использовала инструменты интерпретируемости — графики частичной зависимости и значения SHAP. Эти инструменты показывают, какие входные параметры наиболее важны и как они влияют на прогноз. Результаты выделяют мелкие частицы (PM2.5 и их краткосрочные средние), озон за восьмичасовой интервал и средние значения PM10 как самые влиятельные факторы AQI. Также обнаружены пороговые эффекты, например резкий скачок прогнозируемого риска при превышении определенного уровня диоксида серы, что подтверждает, что система усваивает значимые для здоровья закономерности.

Figure 2
Figure 2.

Что это значит для повседневной жизни и будущих городов

Для неспециалистов главный вывод в том, что прогнозы качества воздуха могут быть одновременно высокоточными и понятными. Комбинируя несколько дополняющих друг друга моделей и показывая, как они принимают решения, эта работа предлагает предсказательный механизм, который города могли бы интегрировать в системы мониторинга в реальном времени. Такой инструмент может инициировать более ранние оповещения о рисках для здоровья, помогать в планировании школьных и уличных мероприятий или поддерживать целенаправленные ограничения движения в дни, когда ожидается резкий рост загрязнения. Поскольку подход использует стандартные измерения загрязнителей и погодных условий, его можно адаптировать к другим регионам, дообучать по мере изменения условий и сочетать с новыми пространственными методами для покрытия всего урбанистического пространства. Проще говоря, более интеллектуальное и прозрачное прогнозирование AQI может стать практическим элементом для создания более здоровых и устойчивых городов.

Цитирование: Singh, S., Kumar, M., Sengar, V. et al. Ensemble learning for air quality index prediction: integrating gradient boosting, XGBoost, and stacking with SHAP-based interpretability. Sci Rep 16, 8544 (2026). https://doi.org/10.1038/s41598-026-39232-w

Ключевые слова: индекс качества воздуха, ансамблевое обучение, градиентный бустинг, прогнозирование загрязнения, интерпретируемость моделей