Clear Sky Science · it

Un metodo di allocazione delle risorse per Internet of Things cognitivo basato su un algoritmo di apprendimento per rinforzo multi-agente

· Torna all'indice

Perché i dati della tua auto devono restare “freschi”

Le auto moderne condividono continuamente informazioni sulla loro posizione, velocità e ambiente con altri veicoli e con le infrastrutture stradali. Perché le funzioni di sicurezza e le future capacità di guida autonoma funzionino bene, queste informazioni devono essere non solo accurate ma anche aggiornate: un avviso di frenata arrivato con un secondo di ritardo può essere inutile. Questo articolo esplora come mantenere tali dati il più aggiornati possibile su reti wireless affollate, usando un nuovo tipo di metodo di controllo basato sull'apprendimento che permette alle auto di decidere autonomamente come e quando trasmettere.

Strade intelligenti che condividono le onde radio

Lo studio considera una rete stradale futura in cui migliaia di auto connesse condividono uno spettro radio limitato con utenti esistenti, come i clienti della telefonia mobile. Questo scenario, chiamato Internet of Things cognitivo, assume che le auto siano “ospiti educati”: possono prendere in prestito frequenze solo quando ciò non disturba gli utenti primari. Allo stesso tempo, i veicoli devono comunicare fra loro e con le stazioni base con sufficiente rapidità per supportare avvisi di collisione, coordinamento del traffico e servizi di intrattenimento. Bilanciare queste esigenze è difficile perché le auto si muovono velocemente, i segnali decadono mentre si insinuano tra i palazzi cittadini e i canali disponibili cambiano di momento in momento.

Figure 1
Figure 1.

Misurare la freschezza, non solo la velocità

Il progetto di rete tradizionale spesso si concentra sull'aumentare il tasso di trasmissione o sul ridurre il ritardo medio. Tuttavia, per i messaggi critici per la sicurezza delle auto, ciò che conta davvero è quanto è vecchio l'ultimo aggiornamento di stato quando raggiunge un ricevitore. Gli autori usano una metrica chiamata Age of Information, che cresce con il tempo trascorso dall'ultimo aggiornamento riuscito e viene azzerata quando arriva un nuovo messaggio. Nel loro modello, ogni coppia di veicoli invia ripetutamente blocchi di dati. Se il collegamento wireless è forte e il livello di potenza scelto è sufficientemente elevato, il blocco corrente viene inviato rapidamente e l'età diminuisce; se la connessione è scarsa o la potenza è limitata, i dati residui si accumulano e l'età continua a salire. L'obiettivo è scegliere canali radio e livelli di potenza in modo che questa età rimanga il più bassa possibile, pur risparmiando energia e proteggendo gli utenti primari dalle interferenze.

Insegnare alle auto a cooperare per tentativi ed errori

Poiché l'ambiente wireless cambia rapidamente e ogni auto vede solo informazioni locali, gli autori inquadrano il problema come un compito di apprendimento piuttosto che una formula fissa. Ogni auto agisce come un agente intelligente che osserva ripetutamente la propria situazione: quali canali appaiono occupati, quanto sono forti i suoi collegamenti radio, quanto dato resta da inviare e quanto è vecchio il suo ultimo aggiornamento. Sulla base di questa visione parziale, sceglie un'azione che combina una scelta discreta (quale canale usare, o se restare in silenzio) con una scelta continua (quanta potenza trasmettere). Dopo l'azione, il sistema misura quanto sono fresche le informazioni, quanta potenza è stata usata e se qualche utente primario è stato disturbato. Questo feedback viene trasformato in un segnale di ricompensa che guida gli agenti, attraverso molti episodi simulati, verso decisioni congiunte migliori.

Figure 2
Figure 2.

Un algoritmo di apprendimento su misura per decisioni miste

Per addestrare questi agenti, gli autori sviluppano una versione multi-agente migliorata di un metodo popolare chiamato Proximal Policy Optimization. La loro variante, IMAPPO, utilizza un modulo di addestramento centrale che vede lo stato globale e valuta quanto siano buone le azioni combinate di tutte le auto, mentre ciascuna auto impara una regola decisionale privata che può applicare da sola in tempo reale. Un'innovazione chiave è una rete decisionale migliorata in grado di gestire in modo naturale sia la scelta on/off dei canali sia la gamma continua dei possibili livelli di potenza. In simulazioni di strade cittadine a griglia, con auto e stazioni base posizionate in luoghi realistici e con effetti radio come fading e interferenze inclusi, il metodo proposto viene confrontato con diversi algoritmi di apprendimento all'avanguardia e con un riferimento casuale.

Dati più freschi con meno energia

I risultati mostrano che il nuovo metodo può mantenere le informazioni significativamente più fresche consumando anche meno potenza. Per diversi numeri di veicoli e diverse quantità di dati da inviare, IMAPPO riduce l'Age of Information media fino a circa la metà rispetto a un accesso casuale semplice e supera altri metodi di apprendimento avanzati con margini significativi. Allo stesso tempo, riduce l'energia complessiva usata dalle auto, aiutando a preservare la durata della batteria e a limitare le interferenze verso altri utenti dello spettro. Per un lettore non tecnico, questo significa che un controllo più intelligente e basato sull'apprendimento di chi parla, quando e con quale intensità sulla «corsia» wireless potrebbe rendere i veicoli connessi e autonomi più sicuri, più efficienti e più rispettosi delle onde radio affollate che devono condividere.

Citazione: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x

Parole chiave: veicoli connessi, condivisione dello spettro wireless, età dell'informazione, apprendimento per rinforzo, internet delle cose