Clear Sky Science · pl

Uczenie ze wzmocnieniem w federacji wspierane negocjacjami dla harmonogramowania strumieni bez konfliktów na krawędzi–w chmurze

2026-03-26 · Powrót do spisu

Dlaczego inteligentne aplikacje potrzebują płynniejszego ruchu za kulisami

Od map ruchu na żywo po czujniki w fabrykach — wiele nowoczesnych aplikacji opiera się na stałym strumieniu danych, który trzeba przetwarzać w milisekundach. Aby nadążyć, firmy rozkładają obliczenia między pobliskie urządzenia brzegowe a odległe serwery w chmurze. Gdy jednak liczne części tej sieci jednocześnie podejmują własne decyzje, mogą wystąpić zderzenia, prowadzące do cyfrowych korków, rosnących kosztów i opóźnień w działaniu. W artykule zaprezentowano nowy sposób koordynacji tych decyzji, dzięki któremu aplikacje strumieniowe pozostają szybkie, stabilne i wydajne nawet przy gwałtownie zmieniającym się obciążeniu.

Figure 1. Jak urządzenia brzegowe i maszyny w chmurze płynnie dzielą pracę strumieniową bez spowalniania aplikacji

Rosnące problemy współpracy krawędzi i chmury

Kamery inteligentne, pojazdy i czujniki przemysłowe wysyłają teraz nieprzerwane strumienie danych, które trzeba analizować w czasie rzeczywistym. Komputery brzegowe blisko użytkowników skracają opóźnienia, podczas gdy centra danych w chmurze dostarczają dodatkowej mocy. Decydowanie, gdzie wykonać każde zadanie, jest jednak trudne, ponieważ zadania zależą od siebie, a obciążenia mogą gwałtownie wzrosnąć. Klasyczne metody harmonogramowania opierają się na stałych regułach lub planowaniu offline. Działają w spokojniejszych warunkach, ale mają trudności, gdy tysiące zadań i maszyn muszą adaptować się co sekundę w wielu regionach. Centralna kontrola może stać się wąskim gardłem, zaś całkowicie niezależne lokalne kontrolery często walczą o współdzielone zasoby.

Uczenie harmonogramowania, ale bez wchodzenia sobie w drogę

Nowe podejścia pozwalają agentom programowym uczyć się dobrych zasad harmonogramowania metodą prób i błędów, czyli uczeniem ze wzmocnieniem. Uczenie federacyjne umożliwia wielu agentom wspólny trening przy zachowaniu surowych danych lokalnie, co jest ważne dla prywatności i przepustowości. Jednak gdy każdy klaster brzegowy uczy się samodzielnie i tylko okazjonalnie synchronizuje modele, ich działania nadal mogą kolidować. Dwa klastry mogą jednocześnie odciążać pracę na te same serwery w chmurze lub przekazywać zadania tam i z powrotem, powodując dodatkowe opóźnienia i marnotrawstwo energii. Autorzy twierdzą, że brakuje tu wyraźnego mechanizmu, dzięki któremu agenci mogliby się komunikować i negocjować przed podjęciem działań.

Stół negocjacyjny dla cyfrowych planistów

Proponowane ramy FedNeg-RL dodają lekką warstwę negocjacyjną na wierzchu federacyjnego uczenia ze wzmocnieniem. Każdy klaster urządzeń brzegowych ma reprezentującego agenta, który monitoruje lokalne obciążenie, przewiduje ruch w krótkim horyzoncie i śledzi zadania najbardziej wrażliwe na opóźnienia. Zanim wprowadzą zmiany mogące wpłynąć na współdzielone łącza lub węzły w chmurze, przedstawiciele wymieniają krótkie podsumowania, takie jak oczekiwane obciążenie i prawdopodobny wpływ ich działań, zamiast surowych danych. Przy użyciu prostych protokołów w stylu argumentacji negocjują wspólny plan unikający kolizji, po czym każdy klaster lokalnie wdraża uzgodnione działania. Z czasem proces uczenia jest kształtowany tak, by preferować plany utrzymujące niskie opóźnienia, rozsądne zużycie energii i kosztów oraz rzadkie konflikty.

Figure 2. Jak sąsiednie klastry brzegowe negocjują, by wyrównywać zadania i unikać konfliktów o współdzielone zasoby

Testy podejścia w zatłoczonych wirtualnych miastach

Aby ocenić FedNeg-RL, autorzy zbudowali szczegółowe symulacje obciążeń w stylu Internetu rzeczy, obejmujące setki powiązanych zadań i nieregularne, trudne do przewidzenia strumienie danych podobne do tych w monitoringu ruchu w inteligentnych miastach. Porównali swoją metodę z harmonogramami opartymi na regułach, algorytmami ewolucyjnymi, standardowym lokalnym uczeniem ze wzmocnieniem, czystym uczeniem federacyjnym oraz pojedynczym scentralizowanym agentem uczącym się. W wielu scenariuszach FedNeg-RL zmniejszył liczbę zakłócających rekonfiguracji wywołanych konfliktami nawet o 41 procent, obniżył najwyższe opóźnienia (najwolniejsze 10 procent odpowiedzi) o około 20–28 procent oraz zmniejszył narzut adaptacji o około 35 procent. Ponadto bardziej równomiernie wykorzystał energię i dobrze skalował się wraz ze wzrostem liczby zadań i maszyn.

Co to oznacza dla przyszłych systemów połączonych

Mówiąc prościej, FedNeg-RL pokazuje, że uczenie kontrolerów programowych nie tylko na podstawie doświadczeń, lecz także poprzez negocjacje z rówieśnikami może sprawić, że współdzielona infrastruktura brzegowo–chmurowa będzie działać płynniej. Zamiast rozproszonych, konkurencyjnych decyzji, klastry koordynują się w wystarczającym stopniu, by utrzymać aplikacje strumieniowe responsywnymi, stabilnymi i wydajnymi, nie ujawniając prywatnych danych ani nie polegając na jednym centralnym mózgu. W miarę jak wdrożenia w świecie rzeczywistym będą się stawać większe i bardziej złożone, tego typu uczenie świadome negocjacji może pomóc zapewnić, że niewidzialna warstwa obliczeniowa stojąca za inteligentnymi miastami, fabrykami i usługami będzie działać cicho w tle, nawet przy ciągłych zmianach zapotrzebowania.

Cytowanie: Kang, X., Hua, C. Negotiation-augmented federated reinforcement learning for conflict-free edge–cloud stream scheduling. Sci Rep 16, 15158 (2026). https://doi.org/10.1038/s41598-026-45004-3

Słowa kluczowe: harmonogramowanie edge cloud, federacyjne uczenie ze wzmocnieniem, strumieniowanie IoT, negocjacje wieloagentowe, redukcja opóźnień