Clear Sky Science · ru
Точное и интерпретируемое прогнозирование химической потребности в кислороде с использованием объяснимых бустинговых алгоритмов и анализа SHAP
Почему важно следить за кислородом в реке
Реки — жизненная артерия городов и ферм, но когда в них попадает органические отходы от заводов, канализаций или полей, вода может оказаться обеднённой по кислороду и небезопасной для людей и экосистем. Обычная проверка состояния реки — «химическая потребность в кислороде» (COD), показатель того, сколько кислорода требуется для разложения загрязнений. Лабораторное измерение COD медленное и дорогое, поэтому в этом исследовании проверяли, могут ли современные, но объяснимые методы машинного обучения надёжно прогнозировать COD по данным рутинных датчиков — и при этом ясно показывать, что вызывает загрязнение. 
Умные модели для загрязнённого мира
Исследователи сосредоточились на двух постах мониторинга рек в Южной Корее, Хвангдзи и Тоильчон, расположенных непосредственно выше многоцелевого плотины Ёнгджу. На этих участках имеются десятилетия записей по стандартным показателям качества воды: кислотности (pH), растворённого кислорода, взвешенных веществ (мелких частиц в воде), питательных веществ, таких как азот и фосфор, общего органического углерода (TOC), биохимической потребности в кислороде (BOD₅), температуры воды, электропроводности и расхода реки. Вместо построения традиционной физически обоснованной модели — которую трудно переносить с одной реки на другую — они протестировали шесть алгоритмов «бустинга», мощного семейства методов машинного обучения, которое объединяет множество простых решающих деревьев в сильный предиктор.
Поиск лучшего «прогнозиста» реки
Чтобы сравнить шесть методов бустинга (AdaBoost, CatBoost, XGBoost, LightGBM, HistGBRT и NGBoost), команда обучала модели примерно на 70% исторических данных и проверяла работу на оставшихся 30%. Точность оценивали с помощью нескольких статистических показателей, отражающих, насколько близки прогнозы к реальным измерениям COD и насколько хорошо модели обобщаются на невидимые условия. На станции Тоильчон модель NGBoost — которая предсказывает не просто одно значение, а полное вероятностное распределение COD — оказалась явным победителем, захватывая почти всю вариативность COD с очень малыми ошибками. На Хвангдзи, более сложном участке, лучшим балансом между точностью и стабильностью отличился CatBoost. Некоторые модели, особенно XGBoost, выглядели почти идеально на тренировочных данных, но сдавали позиции на тестовых — классический признак «переобучения», когда модель запоминает шум, а не реальные закономерности.
Открывая «чёрный ящик» ИИ
Ключевая цель исследования заключалась не только в прогнозировании COD, но и в объяснении причин, по которым модели выдают свои прогнозы. Для этого авторы использовали SHAP (Shapley Additive Explanations) — метод, который каждому входному признаку присваивает вклад, положительный или отрицательный, в каждый отдельный прогноз. В обоих реках и для большинства алгоритмов три переменные последовательно проявлялись как основные драйверы COD: общий органический углерод (TOC), биохимическая потребность в кислороде (BOD₅) и взвешенные вещества (SS). Проще говоря: чем больше органического материала и мелких частиц в воде, тем выше потребность в кислороде. Модели также выявили особенности, характерные для конкретных участков: в Тоильчоне более сильную роль играли расход (дебит) и общий фосфор, что указывает на большую долю диффузных источников, таких как сельскохозяйственный сток; на Хвангдзи закономерности в электропроводности и взвешенных веществах наводят на мысль о более локальных или промышленных источниках. 
Что эти результаты значат для реальных рек
Эти выводы показывают, что бустинговые модели в сочетании с SHAP могут перестать быть непрозрачными «чёрными ящиками». Они дают как точные прогнозы потребности реки в кислороде, так и физически осмысленное объяснение того, что вызывает загрязнение на каждом участке. Это важно для управляющих плотинами и речными бассейнами, которым приходится приоритизировать, что и где контролировать и куда вмешиваться: если TOC и BOD₅ оказываются самыми мощными рычагами, то контроль органических сбросов принесёт наибольшее улучшение качества воды. Вероятностные прогнозы NGBoost также дают представление об уровне неопределённости, что критично для систем раннего предупреждения и решений, основанных на оценке рисков. Кратко: исследование демонстрирует, что тщательно разработанный объяснимый ИИ может помочь защищать резервуары питьевой воды и водные экосистемы, превращая рутинные показания датчиков в надёжные и прозрачные прогнозы здоровья рек.
Цитирование: Merabet, K., Kim, S., Heddam, S. et al. Accurate and interpretable prediction of chemical oxygen demand using explainable boosting algorithms with SHAP analysis. Sci Rep 16, 6359 (2026). https://doi.org/10.1038/s41598-026-38757-4
Ключевые слова: качество воды, химическая потребность в кислороде, машинное обучение, загрязнение рек, объяснимый ИИ