Clear Sky Science · pl
Metoda alokacji zasobów w kognitywnym internecie rzeczy oparta na algorytmie wieloagentowego uczenia ze wzmocnieniem
Dlaczego dane Twojego samochodu muszą pozostać „świeże”
Współczesne samochody nieustannie wymieniają informacje o swojej pozycji, prędkości i otoczeniu z innymi pojazdami oraz infrastrukturą przydrożną. Aby systemy bezpieczeństwa i przyszłe funkcje autonomiczne działały poprawnie, dane te muszą być nie tylko dokładne, lecz także aktualne: ostrzeżenie o hamowaniu opóźnione o sekundę może być bezużyteczne. Artykuł bada, jak utrzymać takie dane jak najświeższe w zatłoczonych sieciach bezprzewodowych, stosując nowy rodzaj sterowania opartego na uczeniu, które pozwala samochodom samodzielnie decydować, kiedy i jak przesyłać informacje.
Inteligentne drogi, które współdzielą pasma
Badanie dotyczy przyszłej sieci drogowej, w której tysiące połączonych samochodów dzieli ograniczone widmo radiowe z dotychczasowymi użytkownikami, takimi jak klienci telefonii komórkowej. To środowisko, zwane kognitywnym Internetem Rzeczy, zakłada, że samochody są „grzecznymi gośćmi”: mogą korzystać z częstotliwości tylko wtedy, gdy nie zakłócają użytkowników priorytetowych. Jednocześnie pojazdy muszą komunikować się między sobą i ze stacjami bazowymi wystarczająco szybko, by obsłużyć ostrzeżenia o kolizji, koordynację ruchu i usługi rozrywkowe. Zrównoważenie tych wymagań jest trudne, ponieważ samochody poruszają się szybko, sygnały słabną, gdy mijają zabudowę miejską, a dostępne kanały zmieniają się z chwili na chwilę.

Pomiar świeżości, nie tylko przepustowości
Tradycyjny projekt sieci często koncentruje się na zwiększaniu przepływności danych lub zmniejszaniu średniego opóźnienia. Jednak w przypadku wiadomości krytycznych dla bezpieczeństwa naprawdę istotne jest to, jak stary jest najnowszy status w chwili dotarcia do odbiorcy. Autorzy używają miary zwanej Wiekiem Informacji (Age of Information), która rośnie z upływem czasu po ostatniej udanej aktualizacji i resetuje się, gdy nadejdzie nowa wiadomość. W ich modelu każda para pojazdów wielokrotnie wysyła porcje danych. Jeśli łącze bezprzewodowe jest silne, a wybrany poziom mocy wystarczająco wysoki, aktualna porcja zostaje szybko przesłana i wiek spada; jeśli połączenie jest słabe lub moc ograniczona, pozostałe dane przechodzą dalej i wiek nadal rośnie. Celem jest wybór kanałów radiowych i poziomów mocy tak, aby ten wiek był jak najniższy, jednocześnie oszczędzając energię i chroniąc użytkowników priorytetowych przed zakłóceniami.
Nauka współpracy pojazdów przez próbę i błąd
Ponieważ środowisko bezprzewodowe zmienia się szybko, a każdy samochód widzi tylko lokalne informacje, autorzy traktują problem jako zadanie uczenia, a nie stałą formułę. Każdy samochód działa jako inteligentny agent, który wielokrotnie obserwuje swoją sytuację: które kanały wydają się zajęte, jak silne są jego łącza radiowe, ile danych pozostało do wysłania i jaki jest wiek ostatniej aktualizacji. Na podstawie tego częściowego obrazu wybiera działanie łączące decyzję dyskretną (który kanał użyć lub czy pozostać w ciszy) z decyzją ciągłą (jaką moc nadajnika zastosować). Po wykonaniu działania system mierzy, jak świeże są informacje, ile energii zużyto i czy zakłócono użytkowników priorytetowych. Ta informacja zwrotna jest przekształcana w sygnał nagrody, który kieruje agentami, w toku wielu symulowanych epizodów, ku lepszym wspólnym decyzjom.

Dostosowany algorytm uczenia dla decyzji mieszanych
Aby wytrenować tych agentów, autorzy opracowali ulepszoną wieloagentową wersję popularnej metody zwanej Proximal Policy Optimization. Ich wariant, IMAPPO, wykorzystuje centralny moduł trenowania, który widzi stan globalny i ocenia, jak dobre są skumulowane działania wszystkich samochodów, podczas gdy każdy pojazd uczy się prywatnej reguły decyzyjnej, którą może stosować samodzielnie w czasie rzeczywistym. Kluczową innowacją jest usprawniona sieć decyzyjna, która naturalnie obsługuje zarówno binarny wybór kanału, jak i płynne spektrum możliwych poziomów mocy. W symulacjach o siatce miejskich ulic, z realistycznym rozmieszczeniem samochodów i stacji bazowych oraz uwzględnieniem efektów radiowych takich jak zanikanie i interferencje, proponowaną metodę porównano z kilkoma zaawansowanymi algorytmami uczenia i losową strategią odniesienia.
Świeższe dane przy mniejszym zużyciu energii
Wyniki pokazują, że nowa metoda może utrzymać informacje zauważalnie świeższe, przy jednoczesnym mniejszym zużyciu energii. Dla różnych liczebności pojazdów i różnych ilości danych do wysłania IMAPPO zmniejsza średni Wiek Informacji nawet o około połowę w porównaniu z prostym dostępem losowym i przewyższa inne zaawansowane metody uczenia istotnymi marginesami. Równocześnie obniża całkowitą moc używaną przez samochody, co pomaga oszczędzać baterie i ograniczać interferencje dla innych użytkowników widma. Dla czytelnika niebędącego ekspertem oznacza to, że inteligentniejsze, oparte na uczeniu sterowanie tym, kto mówi kiedy i jak głośno na bezprzewodowej „jezdni”, może uczynić pojazdy połączone i autonomiczne bezpieczniejszymi, bardziej efektywnymi i bardziej szanującymi zatłoczone pasma radiowe, którymi muszą się dzielić.
Cytowanie: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x
Słowa kluczowe: pojazdy połączone, współdzielenie widma bezprzewodowego, wiek informacji, uczenie ze wzmocnieniem, internet rzeczy