Clear Sky Science · de

Eine ressourcenallokationsmethode für das kognitive Internet der Dinge basierend auf einem Multi-Agenten-Verstärkungslernalgorithmus

2026-02-07 · Zurück zur Übersicht

Warum die Fahrzeugdaten „frisch“ bleiben müssen

Moderne Autos teilen ständig Informationen über Position, Geschwindigkeit und Umgebung mit anderen Fahrzeugen und der Straßeninfrastruktur. Damit Sicherheitsfunktionen und künftige autonome Fahrfunktionen zuverlässig arbeiten, müssen diese Daten nicht nur genau, sondern auch aktuell sein: Eine Bremswarnung, die eine Sekunde zu spät kommt, kann nutzlos sein. Dieser Artikel untersucht, wie sich solche Daten in stark ausgelasteten drahtlosen Netzen so aktuell wie möglich halten lassen, mithilfe einer neuen, lernbasierten Steuerungsmethode, die den Fahrzeugen erlaubt, eigenständig zu entscheiden, wie und wann sie senden.

Intelligente Straßen, die das Funkband teilen

Die Studie betrachtet ein zukünftiges Straßennetz, in dem Tausende vernetzter Fahrzeuge begrenztes Funkspektrum mit bereits existierenden Nutzern wie Mobilfunkkunden teilen. Dieses Szenario, genannt kognitives Internet der Dinge, geht davon aus, dass die Fahrzeuge „höfliche Gäste“ sind: Sie dürfen Frequenzen nur nutzen, wenn dadurch keine primären Nutzer gestört werden. Gleichzeitig müssen Fahrzeuge schnell genug miteinander und mit Basisstationen kommunizieren, um Kollisionswarnungen, Verkehrskoordination und Unterhaltungsdienste zu ermöglichen. Diese Anforderungen in Einklang zu bringen ist schwierig, weil Fahrzeuge sich schnell bewegen, Signale beim Durchfahren von Stadtblöcken abschwächen und verfügbare Kanäle sich von Moment zu Moment ändern.

Frische messen, nicht nur Geschwindigkeit

Traditionelles Netzwerkdesign konzentriert sich oft auf die Erhöhung der Datenrate oder die Verringerung der mittleren Verzögerung. Für sicherheitskritische Fahrzeugmeldungen ist jedoch entscheidend, wie alt die zuletzt empfangene Statusaktualisierung ist, wenn sie beim Empfänger ankommt. Die Autoren verwenden eine Kennzahl namens Age of Information, die mit der Zeit nach der letzten erfolgreichen Aktualisierung wächst und beim Eintreffen einer neuen Nachricht zurückgesetzt wird. In ihrem Modell sendet jedes Fahrerpaar wiederholt Datenpakete. Ist die drahtlose Verbindung stark und die gewählte Sendeleistung hoch genug, werden Pakete schnell abgearbeitet und das Alter sinkt; ist die Verbindung schlecht oder die Leistung begrenzt, bleiben Daten zurück und das Alter steigt weiter. Ziel ist es, Kanäle und Sendeleistungen so zu wählen, dass dieses Alter so gering wie möglich bleibt, dabei aber Energie gespart und primäre Nutzer vor Störungen geschützt werden.

Autos durch Versuch und Irrtum zum Kooperieren bringen

Da sich die Funkumgebung schnell ändert und jedes Fahrzeug nur lokale Informationen sieht, formulieren die Autoren das Problem als Lernaufgabe statt als feste Formel. Jedes Fahrzeug agiert als intelligenter Agent, der wiederholt seine Situation beobachtet: welche Kanäle besetzt erscheinen, wie stark seine Funkverbindungen sind, wie viel Daten noch zu senden sind und wie alt die letzte Aktualisierung ist. Auf Basis dieser Teilansicht wählt es eine Aktion, die eine diskrete Entscheidung (welchen Kanal zu nutzen oder ob stumm zu bleiben) mit einer kontinuierlichen Entscheidung (welche Sendeleistung zu verwenden) kombiniert. Nach der Aktion misst das System, wie aktuell die Informationen sind, wie viel Leistung verwendet wurde und ob primäre Nutzer gestört wurden. Dieses Feedback wird in ein Belohnungssignal umgewandelt, das die Agenten über viele simulierte Episoden hinweg zu besseren gemeinsamen Entscheidungen leitet.

Ein maßgeschneiderter Lernalgorithmus für gemischte Entscheidungen

Um diese Agenten zu trainieren, entwickeln die Autoren eine verbesserte Multi-Agenten-Version einer populären Methode namens Proximal Policy Optimization. Ihre Variante, IMAPPO, verwendet ein zentrales Trainingsmodul, das den globalen Zustand sieht und bewertet, wie gut die kombinierten Aktionen aller Fahrzeuge sind, während jedes einzelne Fahrzeug eine private Entscheidungsregel lernt, die es in Echtzeit eigenständig anwenden kann. Eine wichtige Neuerung ist ein erweitertes Entscheidungsnetzwerk, das sowohl die Ein-/Aus-Wahl von Kanälen als auch die stufenlose Bandbreite möglicher Sendeleistungen natürlich verarbeiten kann. In Simulationen von gitterähnlichen Stadtstraßen, mit realistisch positionierten Fahrzeugen und Basisstationen und berücksichtigten Funkphänomenen wie Fading und Interferenz, wird die vorgeschlagene Methode mit mehreren modernen Lernalgorithmen und einer zufälligen Basislinie verglichen.

Frischere Daten bei geringerem Energieverbrauch

Die Ergebnisse zeigen, dass die neue Methode Informationen spürbar frischer halten kann und gleichzeitig weniger Leistung verbraucht. Über verschiedene Fahrzeugzahlen und unterschiedliche Datenmengen reduziert IMAPPO das mittlere Age of Information gegenüber einfachem zufälligem Zugriff um bis zu etwa die Hälfte und übertrifft andere fortgeschrittene Lernverfahren deutlich. Zugleich senkt es die insgesamt verbrauchte Sendeleistung der Fahrzeuge, was Batterieenergie schont und die Störung anderer Spektrumnutzer begrenzt. Für eine allgemeine Leserschaft bedeutet das: Eine intelligentere, lernbasierte Steuerung darüber, wer wann und wie laut im drahtlosen „Straßenraum“ spricht, könnte vernetzte und autonome Fahrzeuge sicherer, effizienter und rücksichtsvoller gegenüber den überfüllten Funkbändern machen, die sie teilen müssen.

Zitation: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x

Schlüsselwörter: vernetzte Fahrzeuge, frequenzfreigabe im drahtlosen Netz, Alter der Information, Verstärkungslernen, Internet der Dinge