Clear Sky Science · sv

En resursallokeringsmetod för kognitivt sakernas internet baserad på ett fleragent-förstärkningsinlärningsalgoritm

· Tillbaka till index

Varför din bils data behöver förbli “färsk”

Moderna bilar delar ständigt information om position, hastighet och omgivning med andra fordon och vägsideutrustning. För att säkerhetsfunktioner och framtida självkörande funktioner ska fungera väl måste denna information vara inte bara korrekt utan också färsk: en varning om bromsning som kommer en sekund för sent kan vara utan värde. Denna artikel undersöker hur sådan data kan hållas så uppdaterad som möjligt över belastade trådlösa nätverk, med en ny typ av inlärningsbaserad styrmetod som låter bilar själva avgöra hur och när de ska sända.

Smarta vägar som delar luftvågorna

Studien ser på ett framtida vägnät där tusentals uppkopplade bilar delar begränsat radiospektrum med befintliga användare som mobilkunder. Denna miljö, kallad ett kognitivt sakernas internet, antar att bilarna är ”hövliga gäster”: de kan låna frekvenser bara när det inte stör de primära användarna. Samtidigt måste fordon kommunicera med varandra och med basstationer tillräckligt snabbt för att stödja kollisionvarningar, trafikkoordination och underhållningstjänster. Att balansera dessa krav är svårt eftersom bilar rör sig snabbt, signaler försvagas när de slingrar sig genom stadsblock och tillgängliga kanaler förändras från ett ögonblick till ett annat.

Figure 1
Figure 1.

Mäta färskhet, inte bara hastighet

Traditionell nätverksdesign fokuserar ofta på att öka datahastigheten eller minska genomsnittlig fördröjning. För säkerhetskritiska bilmeddelanden är det emellertid vad som verkligen räknas hur gammal den senaste statusuppdateringen är när den når en mottagare. Författarna använder en mätare kallad Age of Information, som ökar med tiden efter den senaste lyckade uppdateringen och återställs när ett nytt meddelande anländer. I deras modell skickar varje fordonspar upprepade datadelar. Om den trådlösa länken är stark och vald sändningseffekt tillräcklig rensas den aktuella delen snabbt och åldern sjunker; om förbindelsen är dålig eller effekten begränsad kvarstår data och åldern fortsätter att stiga. Målet är att välja radiokanaler och effektnivåer så att denna ålder hålls så låg som möjligt, samtidigt som energi sparas och primära användare skyddas från störningar.

Lära bilar att samarbeta genom trial-and-error

Eftersom den trådlösa miljön förändras snabbt och varje bil bara ser lokal information ramar författarna in problemet som en inlärningsuppgift snarare än en fast formel. Varje bil agerar som en intelligent agent som upprepade gånger observerar sin situation: vilka kanaler som verkar upptagna, hur starka radiolänkarna är, hur mycket data som återstår att sända och hur gammal dess senaste uppdatering är. Baserat på denna partiella bild väljer den en handling som kombinerar ett diskret val (vilken kanal som ska användas, eller att förbli tyst) med ett kontinuerligt val (hur mycket effekt som ska användas). Efter att ha agerat mäts hur färsk informationen är, hur mycket effekt som användes och om några primära användare stördes. Denna återkoppling omvandlas till en belöningssignal som, över många simulerade episoder, vägleder agenterna mot bättre gemensamma beslut.

Figure 2
Figure 2.

En skräddarsydd inlärningsalgoritm för blandade beslut

För att träna dessa agenter utvecklar författarna en förbättrad fleragentversion av en populär metod kallad Proximal Policy Optimization. Deras variant, IMAPPO, använder en central träningsmodul som ser det globala tillståndet och utvärderar hur bra de kombinerade handlingarna från alla bilar är, medan varje enskild bil lär sig en privat beslutsregel den kan tillämpa själv i realtid. En nyckelinnovation är ett uppgraderat beslutsnätverk som naturligt kan hantera både den på/av-liknande kanalvalet och den kontinuerliga skalan av möjliga effektnivåer. I simuleringar av rutnätsliknande stadsvägar, med bilar och basstationer placerade på realistiska positioner samt radiopåverkande faktorer som fading och interferens inkluderade, jämförs den föreslagna metoden med flera avancerade inlärningsalgoritmer och en slumpmässig referensmetod.

Färskare data med mindre energi

Resultaten visar att den nya metoden kan hålla information märkbart fräschare samtidigt som den förbrukar mindre effekt. Vid olika antal fordon och olika mängder data att skicka minskar IMAPPO den genomsnittliga Age of Information med upp till ungefär hälften jämfört med enkel slumpmässig åtkomst, och överträffar andra avancerade inlärningsmetoder med betydande marginaler. Samtidigt sänker den den totala effekten som används av bilarna, vilket hjälper till att bevara batteritid och begränsa störningar för andra spektrumanvändare. För en icke-facklig läsare innebär detta att smartare, inlärningsbaserad styrning av vem som talar när och hur högt på det trådlösa ”vägnätet” skulle kunna göra uppkopplade och autonoma fordon säkrare, mer effektiva och mer hänsynsfulla mot de trånga luftvågor de måste dela.

Citering: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x

Nyckelord: anslutna fordon, delning av trådlöst spektrum, informationens ålder, förstärkningsinlärning, sakernas internet