Clear Sky Science · ru

Сравнительная оценка моделей машинного обучения для прогнозирования суточного расхода воды в субтропическом муссонном водосборе

· Назад к списку

Почему прогнозы рек важны для повседневной жизни

В районах с муссонным климатом реки могут за считанные часы перейти от спокойного состояния к катастрофическому, угрожая жизням, домам и водоснабжению. Точное предсказание того, сколько воды пройдет по реке в каждый конкретный день, лежит в основе предупреждений о наводнениях, работы водохранилищ и городского водоснабжения. В этом исследовании рассматривается субтропическая речная система в Южном Китае и ставится практический вопрос с глобальным значением: какие из современных популярных инструментов машинного обучения действительно лучше всего прогнозируют суточный расход реки, особенно в опасные периоды паводков?

Figure 1
Figure 1.

Река, подверженная штормам, под давлением

Исследование сосредоточено на водосборе Болоу, части реки Дунцзян, которая частично обеспечивает водой Большую заливную область Гуандун–Гонконг–Макао. Регион характеризуется классическим муссонным климатом: большая часть осадков выпадает в несколько интенсивных месяцев, часто из фронтальных систем и тайфунов. Наряду с этой природной изменчивостью, крупное водохранилище и другие виды человеческой деятельности меняют время прихода и объемы стока. Авторы собрали десятилетия суточных данных с дождемеров, метеостанций и гидрологических постов в ключевых точках, затем разделили записи на годы для обучения и годы для тестирования, чтобы имитировать реальные условия прогнозирования. Это позволило оценить, как разные алгоритмы справляются с речной системой, которая одновременно сильно сезонна и интенсивно управляется человеком.

Семь цифровых прогнозистов в очной ставке

Команда сравнила семь широко используемых моделей машинного обучения: простую линейную регрессию, три типа ансамблей на основе деревьев (Random Forest, Extra Trees и Gradient Boosting, включая XGBoost), классическую искусственную нейронную сеть и более продвинутую LSTM (Long Short‑Term Memory) — сеть, разработанную для работы с последовательностями во времени. Каждая модель была тщательно настроена по одинаковой процедуре и оценена с помощью нескольких метрик точности. Во всем диапазоне условий все семь моделей дали достаточно хорошие прогнозы, подтверждая, что подходы, основанные на данных, являются мощными инструментами для прогнозирования рек. Однако проявились явные различия. Модель LSTM оказалась лучшей, за ней следовала традиционная нейронная сеть, в то время как простая линейная модель удивительно хорошо показала себя и превзошла все методы на основе деревьев.

Как модели ведут себя, когда реки ревут

Паводки — это та область, где прогнозирование действительно имеет значение, поэтому авторы подробно рассмотрели дни с высоким расходом и три крупнейших паводковых события в записи. В экстремальных условиях различия усилились. LSTM сохранила преимущество и оставалась самой точной в те дни, когда расходы превышали 90‑й, 95‑й и даже 99‑й перцентили — в самые опасные периоды реки. Она по‑прежнему недооценивала отдельные пики, но обычно менее чем на 20 процентов. Стандартная нейронная сеть показала приемлемые результаты, в то время как модели на основе деревьев часто недооценивали высоту пиков на 30–50 процентов и в дни с самыми большими расходами уступали даже использованию долгосрочного среднего. Тем не менее большинство моделей правильно определяли день пика с точностью примерно в один день, что критично для выпуска предупреждений, даже если точная высота пика неверна.

Figure 2
Figure 2.

Что действительно определяет колебания реки

Чтобы выйти за рамки «черного ящика» прогнозов, исследование проанализировало, какие входные данные имеют наибольшее значение для моделей. Несколько методов, включая метод SHAP, вдохновленный теорией игр, указали на один и тот же ответ: решения прогнозов в значительной мере определялись показаниями верхнего поста Линся. Проще говоря, вчерашний уровень воды выше по течению обычно был информативнее, чем суммарные суточные осадки. Это отражает своего рода гидрологическую память, когда река интегрирует эффекты недавних бурь, влажности почвы и грунтовых вод в свой текущий сток. Когда исследователи исключили данные о верховодном стоке, эффективность LSTM резко упала; при удалении данных об осадках производительность почти не изменилась. Это говорит о том, что при суточном прогнозировании для этого водосбора отслеживание того, сколько воды уже находится в системе, может быть важнее, чем установка дополнительных дождемеров.

Что результаты означают для безопасности при паводках

Для неспециалистов главный вывод прост: умные модели, которые «помнят» вчерашние условия, такие как LSTM, могут давать более надежные прогнозы реки, чем многие популярные альтернативы, особенно когда надвигаются паводки. В то же время грамотно спроектированная простая модель по‑прежнему может быть удивительно эффективной, особенно при наличии хороших измерений стока выше по течению. Работа подчеркивает, что улучшение прогноза паводков — это не столько использование более сложных алгоритмов или больше данных об осадках; важно учитывать гидрологическую память реки и сочетать методы, основанные на данных, с физическим пониманием. Такие достижения помогут водным менеджерам в регионах, подверженных муссонам, принимать более ранние и уверенные решения при приближении следующего крупного шторма.

Цитирование: Zhang, Z., Xiao, Y., Chen, R. et al. Comparative assessment of machine learning models for daily streamflow prediction in a subtropical monsoon watershed. Sci Rep 16, 7341 (2026). https://doi.org/10.1038/s41598-026-38969-8

Ключевые слова: прогнозирование расхода воды, прогнозирование паводков, машинное обучение, нейронные сети LSTM, муссонные реки