Clear Sky Science · zh
一种基于帕累托优化的堆叠集成,用于通过混合数据修复和轻量化部署实现可扩展的电力盗窃检测
为何窃电关乎每个人
电力盗窃听起来像是遥远的问题,但它会悄然抬高电费、加剧电网负担并增加停电风险。世界各地有人非法接线或篡改电表,导致公用事业公司每年损失数十亿美元。本文提出了一种在来自智能电表的大量数据流中自动识别此类盗窃的新方法,旨在保护电网稳定性并维护诚信用户的利益。
智能电表既能提供帮助也会误导
现代智能电表记录住宅和商业场所的日常用电量,描绘出随时间变化的详细需求图谱。理论上,这些记录中的异常模式可以揭示盗窃,比如报告用量突然下降或出现奇怪的不规则峰值。但实际上,数据往往很混乱:读数缺失、部分被损坏,且诚实用户远多于窃电者。简单规则或旧有软件要么漏报太多盗窃,要么触发大量误报,使其在实际运行中难以信赖。

在判断之前先修复有缺陷的数据
研究人员设计了一个完整的流程,称为 STL‑Net,把数据质量与最终预测同等重视。首先,它通过一种混合流程修复缺失读数,结合多种技术,并根据数据片段的缺失程度选择不同的方法。接着,它通过谨慎地重平衡数据来应对窃电样本稀少的问题,使学习算法能看到足够多的可疑行为示例而不过拟合。最后,它将长时间的日用电历史压缩为较少的汇总特征,同时保留关键模式,从而加快求解速度并保持结果可解释。
堆叠多个聪明模型,而非单一黑箱
STL‑Net 的核心是所谓的堆叠方法:系统不依赖单一预测模型,而是训练多个不同模型,然后学习如何最好地融合它们的输出。在此,四个先进的基于树的模型分别估计用户窃电的概率。第五个模型学习如何加权并融合这些个体意见以得出最终判断。为避免构建过于复杂的系统,作者使用一种遗传搜索策略,寻找在两个目标间取得平衡的模型设置:高精度与低计算成本。这种“帕累托”优化产生在两方面都足够好的配置,而非只在某一方面极端优化的方案。

足够快以投入现场,并且可供审查
在来自国家电网公司的大型真实数据集上(涵盖一万多天的用电记录和四万多名用户),STL‑Net 在检测窃电方面表现出高度可靠性。它优于多种标准机器学习方法和深度神经网络,在正确识别窃电者方面取得了强劲评分,同时将诚实用户被误标记的比率降至较低。团队还构建了轻量版本 STL‑Lite,移除了最慢的组件,将响应时间减少约40%,使其在计算资源有限的设备上更为实用,同时几乎保持相同的检测质量。
看到系统为何标记某个用户
除了原始准确性之外,公用事业公司和监管者还需要理解系统为何指控某个用户窃电。STL‑Net 通过一种解释技术来解决这一点,该技术将每次决策归因于最有影响力的特征,例如特定时间窗口内近期用电变化。这些解释表明模型关注的是持续的、可疑的近期用量变化,而非孤立的峰值,并允许操作员对边缘案例进行更细致的审查。这种透明性有助于将模型从神秘的黑箱转变为可审计、值得信赖的决策辅助工具。
对未来电费和可靠性的意义
简而言之,这项研究表明可以构建同时具备高精度、高效性和可解释性的电力盗窃检测器。通过对数据进行细致修复、平衡稀有的窃电样本、结合若干互补模型并关注计算速度,STL‑Net 提供了一个切实可行的工具。若能在地方法规和条件下采用并调整,此类系统可减少隐性损失、支持更公平的计费,并有助于维护对电网的可靠性,对所有依赖电力的人都有益处。
引用: Rahaman, M.A., Mohamad Idris, R. A stacking ensemble with Pareto optimization for scalable electricity theft detection via hybrid data repair and lightweight deployment. Sci Rep 16, 14548 (2026). https://doi.org/10.1038/s41598-026-39693-z
关键词: 电力盗窃, 智能电表, 机器学习, 集成模型, 智能电网安全