Clear Sky Science · ru

Сравнительная оценка алгоритмов оптимизации на основе градиента для краткосрочного прогнозирования нагрузок с использованием глубоких остаточных сетей

2026-03-25 · Назад к списку

Почему завтрашнее энергопотребление важно уже сегодня

Каждый раз, когда мы включаем свет или подключаем устройство, энергокомпании должны заранее иметь электроэнергию, готовую к подаче. Прогнозирование спроса на несколько часов или дней вперед помогает операторам сети поддерживать подачу энергии, избегать отключений и экономить средства. В этой статье рассматривается, как современные инструменты искусственного интеллекта могут сделать такие краткосрочные прогнозы более точными и стабильными, и показывается, что выбор метода обучения, который часто упускают из виду, может иметь такое же значение, как и сама модель.

Адаптация к меняющейся сети

Спрос на электроэнергию колеблется в зависимости от времени суток, сезона, праздников и погоды. Традиционные статистические методы испытывают трудности с такими сложными шаблонами, особенно когда задействовано множество разных сигналов. Глубокие модели, которые объединяют много слоёв простых вычислений, стали популярны, поскольку они способны выявлять тонкие нелинейные зависимости. Среди них конструкция, называемая глубокой остаточной сетью, добавляет «короткие» связи между слоями, что облегчает обучение очень глубоких моделей и повышает их способность улавливать длительные зависимости в данных, например в нагрузках на электроэнергию.

Figure 1. Как погода и прошлый спрос поступают в глубокую модель, чтобы сформировать устойчивый прогноз потребления электроэнергии на завтра.

Два типа «мозга», учитывающего погоду

Авторы сосредоточились на двух близких архитектурах глубоких остаточных сетей для краткосрочного прогнозирования нагрузки. Первая использует прошлое потребление, временную информацию (например, час и день недели) и температуру для предсказания следующих 24 часов потребления. Вторая модель добавляет гораздо больше метеорологических переменных для тропического города, включая осадки и ветер, но сжимает их в небольшой набор комбинированных сигналов с помощью стандартного статистического инструмента, который сохраняет большую часть вариации, снижая избыточность. Это позволяет более богатой картине погоды информировать сеть, не делая её громоздкой и не усложняя обучение.

Как выбор обучения формирует процесс обучения

В большинстве работ, использующих глубокие остаточные сети для прогнозирования в энергетике, тихо выбирают популярный метод обучения Adam и оставляют всё как есть. Метод обучения здесь означает математический рецепт, который небольшими шагами корректирует внутренние параметры модели по мере её обучения на прошлых данных. Эта статья оспаривает такую привычку, систематически сравнивая тринадцать различных градиентных алгоритмов обучения, включая классические подходы и несколько современных адаптивных вариантов, всё в рамках одной и той же структуры модели. Авторы тестируют их на двух реальных наборах данных: одном из умеренного региона Нью-Ингленда в США и другом из тропической Малайзии.

Figure 2. Различные пути обучения направляют глубокую модель по ландшафту оптимизации к немного отличающимся, но низкоошибочным прогнозам спроса на электроэнергию.

Что сработало лучше в разных климатах

В обоих регионах методы, которые адаптируют шаги обучения, используя недавние паттерны ошибок, в целом превзошли более старые, простые подходы. Для оригинальной модели, где главным погодным сигналом была температура, вариант AMSGrad показал наименьшие средние ошибки прогнозов и наиболее стабильное поведение обучения в обоих климатах. Однако при переходе авторов на версию модели с сжатыми многопогодными входами баланс сменился. При таком представлении данных вперед вышел другой адаптивный метод — AdaBelief, а Adam также показал сильные результаты. Иными словами, изменение того, как погодная информация упакована для модели, тонко преобразовало ландшафт обучения и сделало предпочтительными разные правила оптимизации.

Проверка, что приросты реальны, а не случайны

Чтобы убедиться, что наблюдаемые улучшения не являются просто статистическим шумом, авторы использовали технику пересэмплирования, многократно воспроизводя задачу прогнозирования на слегка изменённых выборках данных. Это позволило оценить, насколько вероятно, что один метод обучения действительно превосходит другой. Тесты показали, что несколько наблюдаемых выигрышей, например превосходство AMSGrad над Adam на данных Нью-Ингленда и преимущества подхода с сжатием погодных признаков при некоторых оптимизаторах в Малайзии, вряд ли объясняются только случайностью.

Что это значит для будущей сети

Для неспециалистов главный вывод в том, что улучшение прогнозов спроса на электроэнергию — это не только изобретение новых нейросетей или наполнение их большим объёмом метеоданных. То, как эти сети обучают, и способ, которым метео-входы дистиллируют, могут существенно изменить точность и стабильность прогнозов. Показав, что некоторые адаптивные правила обучения последовательно улучшают показатели, и что лучший выбор может зависеть от представления входных данных, это исследование даёт планировщикам сетей и практикам ИИ более чёткое руководство по созданию надёжных инструментов прогнозирования, которые помогают сохранять энергосистемы безопасными и экономичными.

Цитирование: Liu, J., Ahmad, F.A., Samsudin, K. et al. A comparative evaluation of gradient-based optimization algorithms for short-term load forecasting using deep residual networks. Sci Rep 16, 14949 (2026). https://doi.org/10.1038/s41598-026-45829-y

Ключевые слова: краткосрочное прогнозирование нагрузки, глубокие остаточные сети, алгоритмы оптимизации, прогнозирование в энергетических системах, метеорологические признаки