Clear Sky Science · fr
Améliorer les prévisions éoliennes et solaires par l’ingénierie de caractéristiques temporelles et l’apprentissage automatique en ensemble
Pourquoi de meilleures prévisions pour les énergies propres comptent
À mesure que les éoliennes et les panneaux solaires fournissent une part croissante de notre électricité, leurs variations naturelles compliquent la mission de garder les lumières allumées. Les gestionnaires de réseau doivent savoir non seulement combien d’énergie est générée maintenant, mais aussi comment cette production est susceptible d’évoluer dans les prochaines heures. Cette étude examine comment l’analyse de données avancée et l’apprentissage automatique peuvent transformer des années d’enregistrements éoliens et solaires en prévisions à court terme plus précises, aidant à équilibrer l’offre et la demande, réduire le gaspillage et soutenir une grille plus fiable et bas carbone.
Des relevés bruts aux signaux enrichis
Les chercheurs ont travaillé avec près de six ans de données horaires de production éolienne et solaire à l’échelle de la France, couvrant plus de cinquante mille instants. Plutôt que d’alimenter ces chiffres bruts directement dans un modèle, ils les ont reformatés en signaux plus riches. Ils ont ajouté des informations sur la production une heure, un jour, ou des périodes plus anciennes, calculé des moyennes et des mesures de variabilité à court terme, et encodé des motifs calendaires tels que l’heure, le jour de la semaine et la saison en utilisant des fonctions circulaires reflétant les cycles quotidiens et annuels. Ils ont aussi vérifié attentivement les redondances et les fuites d’information depuis le futur, afin que les modèles soient évalués sur des tâches de prévision réalistes plutôt que d’avoir accidentellement déjà vue la réponse. 
Apprendre aux machines à suivre le rythme du temps
Avec ces séries temporelles enrichies, l’équipe a testé un large éventail de méthodes de prévision. Des modèles statistiques classiques comme les ARIMA, qui supposent des schémas linéaires relativement simples, ont été comparés à des systèmes d’apprentissage automatique plus flexibles, notamment des arbres de décision boostés et des réseaux neuronaux profonds. Deux ensembles basés sur des arbres, CatBoost et LightGBM, se sont distingués. Ces méthodes construisent de nombreux petits arbres de décision capturant chacun différents aspects des données, puis les combinent en un prédicteur unique et robuste. En utilisant un strict schéma d’évaluation en roll forward, où chaque nouvelle prévision est faite uniquement à partir de données passées, les auteurs se sont assurés que les chiffres de performance refléteraient ce qui est attendable en conditions réelles d’exploitation du réseau.
Jusqu’où pouvons‑nous vraiment voir
L’étude a examiné des prévisions d’une heure jusqu’à une journée entière à l’avance pour l’éolien et le solaire séparément. Pour l’éolien, les meilleurs modèles capturaient la plupart de la variabilité à l’horizon d’une heure, avec une performance diminuant progressivement lorsque le délai s’allongeait. Jusqu’à environ six heures, les prévisions restaient informatives, mais entre douze et vingt‑quatre heures l’influence croissante de la météo rendait les prédictions beaucoup plus incertaines. Le solaire s’est avéré encore plus difficile à anticiper sur de plus longues périodes, car la nébulosité et d’autres facteurs rapides peuvent changer vite de manière invisible à partir de la seule production passée. Les modèles ont fait un bon travail pour l’heure suivante environ, surtout par temps clair, mais au‑delà de quelques heures leur performance chutait fortement.
Ce à quoi les modèles prêtent réellement attention
En supprimant systématiquement des groupes de variables d’entrée, les auteurs ont sondé quelles informations importaient le plus. Les niveaux récents de production, les valeurs retardées, étaient l’ingrédient dominant, confirmant que ce qui vient de se produire est généralement le meilleur indice de ce qui va suivre. Les moyennes roulantes et les mesures de variabilité à court terme ont également joué un rôle majeur, notamment lors des transitions entre calme et vent ou entre nuageux et ensoleillé. Les caractéristiques calendaires et cycliques, comme l’heure du jour encodée sur un cercle, devenaient plus importantes sur les horizons plus longs, où les schémas quotidiens et saisonniers larges comptent davantage que les fluctuations minute par minute. Les modèles profonds basés sur des réseaux récurrents pouvaient suivre des oscillations complexes de production, mais les ensembles d’arbres bien optimisés égalisaient ou dépassaient leur précision avec un coût computationnel moindre. 
Ce que cela signifie pour la grille de demain
Pour le lecteur général, le message clé est que la préparation soigneuse des données horodatées et des tests de modèles réfléchis peuvent vraiment améliorer notre capacité à anticiper la production des fermes éoliennes et solaires. Des méthodes d’apprentissage automatique sophistiquées mais pragmatiques peuvent fournir des prévisions fiables pour les prochaines heures, fenêtre temporelle la plus importante pour l’équilibrage quotidien du réseau. Dans le même temps, l’étude montre que regarder toute la journée à l’avance reste difficile si l’on se limite à la seule production passée, en particulier pour le solaire. Pour pousser plus loin les capacités de prévision, les outils futurs devront combiner ces techniques pilotées par les données avec des informations météorologiques détaillées et des connaissances physiques sur les turbines et les panneaux, aidant les réseaux à rester stables à mesure que l’énergie propre occupe une part plus importante de la charge.
Citation: Elmunim, N.A., Khlifi, M.A., Aldawsari, M.A. et al. Enhancing wind and solar energy forecasting through time-series feature engineering and ensemble machine learning. Sci Rep 16, 15546 (2026). https://doi.org/10.1038/s41598-026-49373-7
Mots-clés: prévision des énergies renouvelables, prévision de la production éolienne, prévision de la production solaire, apprentissage automatique, caractéristiques de séries temporelles