Clear Sky Science · ja

革新的なリプレイ法を用いた配電網再構成における深層強化学習アルゴリズムの学習過程の加速

· 一覧に戻る

日常生活を支える賢い電力網

多くの場所で電力は非常に安定して供給されており、家庭や職場にどのように届くかをあまり意識しません。しかし実際には、電力会社は損失を最小限に抑えつつ供給するため、どの線路を稼働させるかを常に調整しています。本稿は、人工知能が自ら学習して地域配電網を再構成し、損失を削減し、電圧を健全に保ち、太陽光や日々の需要変動といった変化に迅速に対応する新たな手法を検討します。

Figure 1
Figure 1.

なぜ送配電網はより良い戦略を必要とするのか

典型的な配電網では、変電所から多数の利用者へと線路やスイッチを経由して電力が流れます。スイッチの中には通常閉じているものと開いているものがあり、全体としてメッシュではなく木(ツリー)状の構成になるよう保たれます。これは機器保護と運用の簡素化に寄与します。長年にわたり、エンジニアはどのスイッチを開閉すべきかを決めるために、多くの巧妙な数学的手法や自然界に着想を得たアルゴリズムを設計してきました。これらの方法は有効ですが、詳細なモデルに依存することが多く、計算時間を要し、条件が変わるたびに再実行する必要があります。

試行錯誤で学ぶAIエージェント

著者らは代わりに、配電網を深層強化学習エージェントの学習の場と見なします。深層強化学習は試行錯誤を通じて性能を向上させる一種のAIです。各ステップでエージェントはネットワークの現状を観察します:全バスの電圧や各線路の状態など。そして、ネットワークのループごとにどの線を開くかを選択し、総電力損失の大きさや電圧が理想値からどれだけ逸脱しているかに基づいてスコアを受け取ります。多数のシミュレーションエピソードを通じて、エージェントは損失が小さく電圧が安定するスイッチ配置の組み合わせを次第に見つけ出します。電力流の基礎方程式を直接教えられることはありません。

大きなパズルをループに分割する

主要な障害は、実際の配電網でのスイッチ設定の組み合わせが膨大になることです。線路が増えると行動空間は爆発的に増大します。これに対処するため、本稿はループ基準の戦略を導入します。全線を一度に決定する巨大な意思決定機ではなく、ネットワークをループに分解します。各ループに専用の学習ネットワークを割り当て、そのループ内でどの線を開くかだけを決めさせます。さらに、あるループが他のループと共有する線を選んだ場合、後続のループは自動的にその線を利用不可とみなすよう学習ルールを修正します。この調整により、物理的制約を満たしつつ各学習者の決定空間を管理可能に保てます。

Figure 2
Figure 2.

最も価値ある経験だけを記憶する

ループ分割があっても、過去のすべての経験を同等に扱うと学習は遅くなります。そこで著者らは新しい「損失重視の経験リプレイ」メカニズムを設計しました。訓練中、エージェントはエピソード全体──行動の一連とそれに続く網の状態全体──をメモリに保存します。各エピソード終了後、最終的な電力損失をこれまでの最良経験と比較し、上位数パーセントに入るエピソードのみを特別なバッファにコピーします。ネットワーク訓練時にはこのエリート集合からの例と通常の経験からの例を一部ずつ取り出し、有望なパターンに集中しつつ偏りを避けるバランスを取ります。この選択的リプレイにより、エージェントは高品質な戦略へより速く収束できます。

現実的なテストネットワークでの実証

研究者らは、この手法を33、69、119バスの3つのよく知られたベンチマーク系で評価し、屋根置き太陽光や1日を通した時間変動需要を含むバージョンでも試験しました。新しいリプレイバッファの有無を含む複数の深層学習変種を、従来のAI法や数学的手法と比較しています。すべてのネットワークにおいて、損失重視のリプレイを用いたループ基準エージェントは、通常の手法よりも一貫して電力損失をより多く削減し、既存の最良手法に匹敵するか上回る結果を示しました。訓練完了後の計算時間も競争力があり、リアルタイムまたは頻繁な再構成が必要な場面で重要です。

将来の電力網にとっての意味

簡潔に言えば、本研究は、慎重に設計された学習システムが電力網の“道路”をどのように並び替えるかを自律的に学び、電力をより効率的に流しつつ安全な範囲内に保てることを示しています。問題をループに分割し、過去の最も成功した経験で訓練することで、粗雑な単純化を避けつつ学習を実用的に保ちます。非常に大規模な網では訓練に時間がかかる点は残りますが、このアプローチはバックグラウンドで継続的にスイッチ設定を微調整し、損失を削減し、再生可能エネルギーを支え、電力供給をより信頼性が高く経済的にする将来の配電システムへ向けた道筋を示しています。

引用: Ghaemipour, A., Mashhadi, H.R. & Mostafavi, S.H. Accelerating the learning process of deep reinforcement learning algorithms in distribution network reconfiguration using an innovative replay method. Sci Rep 16, 12660 (2026). https://doi.org/10.1038/s41598-026-40508-4

キーワード: 配電, スマートグリッド, 強化学習, ネットワーク最適化, 太陽光導入