Clear Sky Science · ru

Идентификация источника внезапных событий загрязнения воды в реке Дунляо с использованием гибридной системы машинного обучения

· Назад к списку

Почему внезапное загрязнение реки важно для всех

Когда разлив на заводе или разрыв трубы отправляет всплеск загрязнения в реку, сообществам вниз по течению может оставаться всего несколько часов, чтобы защитить водозаборы и экосистемы. Точное знание того, откуда пришло загрязнение, насколько оно было сильным и как долго длилось, жизненно важно для привлечения к ответственности причастных сторон и эффективного реагирования. В этом исследовании рассматривается река Дунляо в Китае и показано, как сочетание физически обоснованных симуляций с современным машинным обучением позволяет быстро локализовать скрытые источники загрязнения с реалистичной оценкой неопределённости, даже при шумных или скудных полевых данных.

Figure 1
Figure 1.

Прослеживание разлива по реальной реке

Исследователи проанализировали участок реки Дунляо длиной почти 30 километров, примыкающий к промышленным паркам, которые могут быть причиной внезапных инцидентов загрязнения. Они рассмотрели аварийные сценарии, в которых единичный кратковременный выброс загрязнителей — измеряемых через привычные показатели качества воды, такие как потребление химического кислорода, аммиак и фосфор — попадает в реку с одного из берегов. Пять виртуальных пунктов наблюдения были размещены ниже по течению, чтобы зафиксировать, как распространяется волна загрязнения и как меняется её пиковая концентрация. Поскольку реальные аварии редки и часто плохо задокументированы, команда опиралась на детализированную компьютерную модель течения реки и транспорта загрязнителей, чтобы сгенерировать множество реалистичных «что если» сценариев.

Преобразование тяжёлых симуляций в быстрый заменитель

Традиционные модели рек решают сложные уравнения, описывающие движение воды и распространение и разбавление загрязняющих веществ. Эти инструменты мощны, но медленны: одна высокоточная симуляция участка Дунляо может занимать около часа, что слишком долго для оперативных решений при чрезвычайных ситуациях или для перебора тысяч возможных сценариев разлива. Чтобы решить эту проблему, авторы построили лёгкую заменяющую модель — суррогат — с помощью машинного обучения. Они сгенерировали 180 синтетических событий разлива с помощью физической модели и использовали эти данные для обучения трёх алгоритмов. Подход на основе нейронной сети, известный как LSTM (долговременная краткосрочная память), явно превзошёл других кандидатов, точно воспроизводя предсказания исходной модели по пиковым уровнем загрязнения во всех пунктах наблюдения и работая почти мгновенно.

Поиск скрытого источника

Имея быстрый суррогат, команда занялась обратной задачей: по измерениям ниже по течению можно ли восстановить, где произошёл выброс и насколько он был сильным? Сначала они использовали детерминированную стратегию, которая ищет единственный наилучший ответ. Здесь метод поиска, вдохновлённый кооперативным охотничьим поведением горбатых китов — алгоритм оптимизации китов, — тестировал множество возможных комбинаций положения источника, его мощности и длительности. Для каждой попытки суррогат LSTM предсказывал концентрации ниже по течению, которые затем сравнивали с синтетическими «наблюдениями». Эта связка кит‑LSTM в целом превзошла два других популярных метода поиска по точности и скорости, снижая типичные ошибки в ключевых параметрах источника до нескольких процентов при идеальных данных без шума.

Figure 2
Figure 2.

Учет неопределённости при реальном шуме

Реальные измерения никогда не бывают идеальными: приборы дают ошибки, условия меняются, а модели приближённы. Поэтому исследователи построили вторую, вероятностную систему, которая ищет не один ответ, а полный набор правдоподобных сценариев разлива и их вероятностей. Они поместили движок кит‑LSTM внутри байесовской структуры, которая рассматривает неизвестные характеристики источника как переменные с распределениями вероятностей. Модифицированный алгоритм периодически допускает принятие слегка худших решений, чтобы исследовать пространство более широко, а затем использует статистические инструменты для суммарного отображения областей, где поиск проводил большую часть времени. В результате получаются кривые вероятности для каждого параметра источника — например расстояния от верхней границы участка или мощности загрязнителя — вместе с интервалами, отражающими наиболее правдоподобные значения.

Что это значит для защиты рек

Когда команда добавила шум измерений, сопоставимый с тем, что могут испытывать полевые датчики, границы применимости детерминированного подхода стали очевидны: некоторые параметры уходили далеко от своих истинных значений. Вероятностный метод, напротив, оставался устойчивым, обычно удерживая ошибки ниже 7% для большинства характеристик выброса и предоставляя чёткие интервалы неопределённости для каждой оценки. Что важно, полная вероятностная оценка разлива может быть выполнена за несколько минут на обычном оборудовании. Для аварийных менеджеров это означает возможность быстро восстановить, откуда, вероятно, пришёл внезапный импульс загрязнения и насколько он был серьёзным, одновременно видя степень уверенности в этих выводах. Эта структура предлагает практический путь к интеллектуальным системам раннего предупреждения, которые объединяют физику, данные и вероятность для защиты поверхностных вод.

Цитирование: Wang, Y., Wang, Y., Shi, P. et al. Source identification of sudden water pollution events in the Dongliao River using a hybrid machine learning framework. Sci Rep 16, 11976 (2026). https://doi.org/10.1038/s41598-026-41724-8

Ключевые слова: загрязнение реки, идентификация источника, машинное обучение, байесовская инверсия, мониторинг качества воды