Clear Sky Science · pl

Przyspieszanie procesu uczenia algorytmów głębokiego uczenia ze wzmocnieniem w rekonfiguracji sieci rozdzielczej przy użyciu innowacyjnej metody powtórzeń

2026-03-09 · Powrót do spisu

Inteligentniejsze sieci energetyczne dla codziennego życia

W wielu miejscach zasilanie elektryczne jest tak niezawodne, że rzadko zastanawiamy się, jak prąd dociera do naszych domów i miejsc pracy. Tymczasem za kulisami przedsiębiorstwa energetyczne nieustannie decydują, które linie mają być aktywne, aby dostarczać energię przy możliwie najmniejszych stratach. W artykule tym opisano nowe podejście pozwalające systemowi sztucznej inteligencji samodzielnie uczyć się rekonfigurowania lokalnych sieci zasilających w celu ograniczenia strat, utrzymania napięć w zdrowych granicach i szybkiego reagowania na zmieniające się warunki, takie jak energia słoneczna czy dobowe wahania zapotrzebowania.

Dlaczego linie energetyczne potrzebują lepszego planu działania

W typowej sieci rozdzielczej prąd płynie ze stacji transformatorowej przez sieć linii i wyłączników do tysięcy odbiorców. Niektóre wyłączniki są domyślnie zamknięte, inne utrzymuje się otwarte, tak aby ogólny układ przypominał drzewo zamiast siatki — to chroni urządzenia i upraszcza eksploatację. Z upływem czasu inżynierowie opracowali wiele wyszukanych metod matematycznych i inspirowanych naturą algorytmów do określania, które wyłączniki powinny być otwarte lub zamknięte, by zminimalizować straty energii i utrzymać napięcia w bezpiecznych granicach. Metody te działają, ale często opierają się na szczegółowych modelach, mogą wymagać dużej mocy obliczeniowej i muszą być powtarzane za każdym razem, gdy zmieniają się warunki.

Pozwalając agentowi AI uczyć się przez próbę i błąd

Autorzy traktują sieć jako pole doświadczalne dla agenta głębokiego uczenia ze wzmocnieniem — rodzaju AI, które poprawia się poprzez próby i błędy. Na każdym kroku agent obserwuje aktualny stan sieci: napięcia na wszystkich węzłach oraz stan każdej linii. Następnie wybiera, którą linię otworzyć w każdym oczku sieci i otrzymuje ocenę opartą na całkowitych stratach mocy oraz odchyleniach napięć od wartości zadanych. W toku wielu symulowanych epizodów agent stopniowo uczy się, które kombinacje pozycji wyłączników zwykle prowadzą do niskich strat i stabilnych napięć, bez znajomości równań przepływu mocy.

Rozbijanie dużej układanki na pętle

Główną przeszkodą jest ogromna liczba możliwych ustawień wyłączników w rzeczywistej sieci rozdzielczej; przestrzeń akcji eksploduje wraz z dodawaniem linii. Aby temu zaradzić, artykuł wprowadza strategię opartą na pętlach. Zamiast jednego wielkiego decydenta wybierającego spośród wszystkich linii naraz, sieć jest dekomponowana na pętle. Dla każdej pętli przypisano oddzielną sieć uczącą się, której zadaniem jest decydowanie wyłącznie o tym, którą linię otworzyć wewnątrz tej pętli. Autorzy modyfikują standardowe reguły uczenia tak, że gdy jedna pętla wybiera linię współdzieloną z inną pętlą, późniejsze pętle automatycznie traktują tę linię jako niedostępną. Taka koordynacja pozwala systemowi respektować fizyczne ograniczenia sieci przy jednoczesnym utrzymaniu rozsądnej przestrzeni decyzji dla każdego ucznia.

Pamiętając tylko najbardziej wartościowe doświadczenia

Nawet z podziałem na pętle uczenie może być powolne, jeśli każde przeszłe doświadczenie traktuje się jednakowo. W związku z tym autorzy zaprojektowali nowy mechanizm „powtórzeń doświadczeń opartych na stratach” (loss-based experience replay). Podczas treningu agent przechowuje całe epizody — kompletne sekwencje akcji i wynikających z nich stanów sieci — w pamięci. Po zakończeniu epizodu ostateczne straty mocy porównywane są z najlepszymi dotąd doświadczeniami. Tylko epizody mieszczące się w najlepszych kilku procentach kopiowane są do specjalnego bufora. Gdy agent trenuje sieci neuronowe, losuje przykłady zarówno z tego elitarnego zbioru, jak i z zwykłych doświadczeń, znajdując równowagę między skupieniem się na obiecujących wzorcach a unikaniem uprzedzeń. Celowane powtórzenia pomagają agentowi szybciej zbiegać do strategii wysokiej jakości.

Udowadnianie pomysłu na realistycznych sieciach testowych

Naukowcy przetestowali swoje podejście na trzech znanych systemach referencyjnych o 33, 69 i 119 węzłach, w tym na wersjach z panelami fotowoltaicznymi na dachach i z czasowo zmiennym zapotrzebowaniem w ciągu doby. Porównali kilka wariantów głębokiego uczenia — z nowym buforem powtórek i bez niego — z wcześniejszymi metodami AI i technikami matematycznymi. We wszystkich sieciach agenci oparci na pętlach korzystający z powtórek skupionych na stratach konsekwentnie redukowali straty mocy bardziej niż ich prostsze odpowiedniki i dorównywali lub przewyższali najlepsze istniejące techniki. Robili to również przy konkurencyjnych lub lepszych czasach obliczeń po zakończeniu treningu, co jest kluczowe dla rekonfiguracji w czasie rzeczywistym lub częstych zmian.

Co to oznacza dla przyszłych sieci

W prostych słowach badanie pokazuje, że starannie zaprojektowany system uczący się może nauczyć się samodzielnie, jak przeorganizować „drogi” w sieci energetycznej, aby prąd płynął bardziej efektywnie i pozostawał w bezpiecznych granicach, nawet gdy energia słoneczna i zapotrzebowanie zmieniają się w ciągu dnia. Poprzez rozbicie problemu na pętle i trening na najbardziej udanych przeszłych doświadczeniach metoda unika prymitywnych uproszczeń, zachowując jednocześnie praktyczność uczenia. Choć trening wciąż wymaga czasu dla bardzo dużych sieci, podejście to wskazuje kierunek ku przyszłym systemom dystrybucyjnym, w których inteligentni agenci stale dopracowują ustawienia wyłączników w tle, zmniejszając straty, wspierając odnawialne źródła i dyskretnie poprawiając niezawodność oraz efektywność kosztową zasilania.

Cytowanie: Ghaemipour, A., Mashhadi, H.R. & Mostafavi, S.H. Accelerating the learning process of deep reinforcement learning algorithms in distribution network reconfiguration using an innovative replay method. Sci Rep 16, 12660 (2026). https://doi.org/10.1038/s41598-026-40508-4

Słowa kluczowe: dystrybucja energii, inteligentna sieć, uczenie ze wzmocnieniem, optymalizacja sieci, integracja fotowoltaiki