Clear Sky Science · zh
通过时间序列特征工程与集成机器学习提升风能与太阳能预测
为何更好的清洁能源预测至关重要
随着风力涡轮机与太阳能电池板提供越来越多的电力,它们固有的波动性让维持供电变得更具挑战。电网运行者不仅需要知道当前的发电量,还必须了解未来数小时内输出可能如何变化。本研究探讨了如何通过先进的数据分析与机器学习,将多年风能与太阳能记录转化为更准确的短期预测,帮助平衡供需、减少浪费,并支持更可靠的低碳电网。
从原始功率读数到更智能的信号
研究人员使用了近六年、覆盖法国各地的小时级风电与光伏发电数据,包含五万多个时间点。他们没有将这些原始数值直接输入模型,而是将其重塑为更丰富的信号:加入前一小时、前一天或更早的滞后值,计算短期均值与波动性,并使用圆形函数编码日内、周内与季节性等日历模式,以反映日周期与年周期。他们还仔细检查了冗余信息与来自未来数据的隐性泄露,确保模型评估基于真实的预测任务,而非无意中提前看到答案。 
教机器去跟随天气的节律
在获得工程化的时间序列后,团队测试了多种预测方法。经典统计模型如 ARIMA(假设相对简单的线性模式)与更灵活的机器学习系统进行了比较,后者包括梯度提升决策树和深度神经网络。其中两种基于树的集成方法 CatBoost 与 LightGBM 表现突出。这些方法构建许多小决策树,各自捕捉数据的不同方面,然后将它们组合成单一的强预测器。通过采用严格的前滚式评估方案——每次新预测仅基于历史数据——作者确保了性能指标更贴近真实电网运行中的预期表现。
我们究竟能看多远
研究分别考察了风电与太阳能从一小时到整整一天的预测表现。对风电而言,最佳模型在一小时预测上捕捉到了大部分变动,随着预测时间的延长性能逐渐下降。大约六小时之内,预测仍含有有用信息,但在十二到二十四小时范围内,天气变化的影响增加,使得预测变得不确定。太阳能在更长时距上更难预测,因为云量及其它快速变化的因素会迅速改变,而这些变化往往无法仅从过去的功率输出中观察到。模型在下一小时左右的预测表现尚可,尤其是在晴朗天气,但过了几小时后其技能值明显下降。
模型实际上关注哪些信息
通过系统性地移除若干输入特征组,作者探查了哪些信息最重要。近期的功率水平——即滞后值——是唯一占主导的成分,这证实了“刚刚发生的情况通常是预测下一步的最好线索”。滚动均值与短期波动性度量也起到重要作用,特别是在系统从平静转为多风或从多云转为晴朗的过渡期间。日历与周期性特征(例如以圆形编码的小时)在更长的预测时距中更为重要,此时广泛的日常与季节性模式比逐分钟波动更具影响力。基于循环神经网络的深度学习模型能够跟踪复杂的产出波动,但调优良好的树型集成在精度上能与之匹敌甚至超越,同时计算成本更低。 
这对未来电网意味着什么
给普通读者的关键结论是:对带时间戳的数据进行细致准备与审慎的模型测试,能够显著提升我们对风电与光伏电场产出的预判能力。成熟而实用的机器学习方法可以为接下来几小时提供可靠预测,而这正是日常电网调度中最重要的时间窗口。与此同时,研究也表明,仅依靠过去的发电数据难以实现整日的高精度预测——尤其是对太阳能而言。要把预测推得更远,未来的工具需要将这些数据驱动方法与详尽的气象信息及关于涡轮与组件的物理知识相结合,从而在清洁能源承担更大负荷时帮助电网保持稳定。
引用: Elmunim, N.A., Khlifi, M.A., Aldawsari, M.A. et al. Enhancing wind and solar energy forecasting through time-series feature engineering and ensemble machine learning. Sci Rep 16, 15546 (2026). https://doi.org/10.1038/s41598-026-49373-7
关键词: 可再生能源预测, 风力发电预测, 太阳能发电预测, 机器学习, 时间序列特征