Clear Sky Science · ru
WxC-Bench: новый набор данных для задач погоды и климата
Почему важны более продуманные данные о погоде
От тряски в самолёте до проливных дождей и усиливающихся ураганов — атмосфера влияет на повседневную жизнь во многих аспектах. В последние годы искусственный интеллект начал прогнозировать погоду быстрее и иногда точнее, чем традиционные компьютерные модели. Но эти мощные системы обычно обучают для одной конкретной задачи и они зависят от тщательно подготовленных данных. В этой статье представлен WxC-Bench — новый открытый набор данных, созданный чтобы дать ИИ более полное и чистое представление об атмосфере, чтобы одна модель могла осваивать множество погодных и климатических задач вместо одной.

Объединение разных типов погодных данных
WxC-Bench (сокращение от Weather and Climate Bench) исходит из простой идеи: если мы хотим универсальный ИИ для атмосферы Земли, нам нужно одно хорошо организованное хранилище, где собраны разные типы погодных данных и задач. Современные передовые системы для прогноза погоды обычно ориентированы на среднесрочные прогнозы — предсказания на несколько дней — и используют один большой набор данных. WxC-Bench идёт дальше. Он собирает информацию со спутников, долгосрочных реанализов погоды, высокодетализированных прогнозных моделей, архивов по ураганам и даже отчётов пилотов из кабины. Авторы очищают и стандартизируют эти источники так, чтобы их можно было напрямую использовать инструментами машинного обучения, сокращая время и требуемую экспертизу при подготовке данных для новых исследований.
Шесть реальных погодных задач в одном наборе
Вместо сосредоточения на одном показателе качества прогноза, WxC-Bench организован вокруг шести практических задач, охватывающих разные временные и пространственные масштабы. На одном конце спектра — авиационная турбулентность, кратковременная мелкомасштабная опасность, которая может внезапно потрясти самолёт. Здесь набор данных связывает ежедневные снимки атмосферы над США с отчётами пилотов, позволяя моделям ИИ учиться, где чаще возникают зоны турбулентности. Другая задача посвящена гравитационным волнам — колебаниям в воздухе, которые переносят энергию и импульс между слоями атмосферы и которых трудно адекватно описать в климатических моделях. Для этого WxC-Bench предоставляет глобальные поля ветров и температур, а также тонкие потоки импульса, которые переносят эти волны, давая ИИ редкую возможность тренироваться на процессах, которые традиционные модели вынуждены аппроксимировать.

От исторических аналогий до будущих дождей и штормов
Другие задачи WxC-Bench смотрят как в прошлое, так и в будущее. Набор погодных «аналогов» помогает ИИ находить прошлые ситуации, похожие на текущий паттерн, так же как метеоролог вспоминает прошлые штормы. Авторы разбивают глобальный реанализ на сотни перекрывающихся плиток, чтобы модели могли искать похожие распределения давления или температуры локально или по всему миру. Для более длинных горизонтов набор по осадкам просит модели прогнозировать суточное количество осадков на несколько недель вперёд — именно тот промежуток времени, который критичен для сельского хозяйства и водного планирования, но где сегодняшние прогнозы часто ошибаются. Эта коллекция использует почти сорок лет спутниковых наблюдений и лучших доступных оценок осадков, позволяя ИИ изучить, как крупномасштабные облачные структуры сегодня связаны с осадками через многие дни.
Ураганы, безопасность полётов и прогнозы простым языком
WxC-Bench также нацелен на экстремальные события с большим воздействием и на коммуникацию. Набор по ураганам собирает более четырёх десятилетий треков и интенсивностей штормов из всех основных океанских бассейнов, охватывая всё — от слабых тропических штормов до самых разрушительных систем категории 5. Объединяя данные разных регионов и условий, он позволяет ИИ изучать, какие условия способствуют быстрому усилению или нетипичным траекториям. Наконец, задача в натуральном языке связывает картографические сетки погоды над США с текстами обсуждений прогнозов, написанными человеком. После тщательной очистки текстов — удаления шумной пунктуации и повторяющихся вставных слов — эта часть бенча обучает модели превращать сложные карты в ясные письменные сводки, приближая ИИ к составлению понятных для людей прогнозов.
Тестирование данных на эталонных моделях ИИ
Чтобы показать, что эти курируемые наборы действительно готовы для машинного обучения, авторы запускают серию базовых моделей для каждой задачи. Простые нейросети уже способны лучше отличать зоны турбулентности от спокойных областей по сравнению со старыми методами; специализированная сеть может воспроизвести ключевые паттерны эффектов гравитационных волн у горных хребтов и траекторий штормов; модель поиска по изображениям успешно находит прошлые карты погоды, похожие на заданный паттерн; авторегрессионная система, обученная на спутниковых данных, может прогнозировать осадки за недели вперёд с навыком, сопоставимым с уважаемыми международными центрами прогнозирования на более дальних горизонтах. Для ураганов и текстов прогнозов современные архитектуры, такие как FourCastNet и модели vision–language, демонстрируют, что данные поддерживают реалистичное отслеживание штормов и разумные письменные сводки, хотя место для улучшения остаётся.
Что это значит для будущего погодного ИИ
В целом WxC-Bench скорее представляет собой набор инструментов для создания и тестирования следующего поколения погодного и климатического ИИ, нежели единичный набор данных. Покрывая задачи от секунд до недель и от локальной турбулентности до глобальной статистики штормов и текстовых отчётов, он ставит перед системами ИИ задачу обобщать знания за пределами одной узкой задачи. Поскольку WxC-Bench доступен открыто, с кодом и пакетом на Python для удобного доступа, исследователи могут тестировать новые «фундаментальные» модели, сравнивать их честно и постепенно расширять коллекцию новыми задачами. Для неспециалиста вывод таков: лучше организованные данные, такие как WxC-Bench, приближают нас к ИИ, который сможет раньше предвидеть опасные штормы, помогать сделать полёты безопаснее, поддерживать планирование водных и сельскохозяйственных ресурсов и объяснять погоду на повседневном языке.
Цитирование: Shinde, R., Ankur, K., Phillips, C.E. et al. WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks. Sci Data 13, 596 (2026). https://doi.org/10.1038/s41597-026-06839-7
Ключевые слова: искусственный интеллект, прогноз погоды, климатические данные, ураганы, прогноз осадков