Clear Sky Science · ru

Метод распределения ресурсов в когнитивном Интернете вещей на основе алгоритма многопользовательского обучения с подкреплением

· Назад к списку

Почему данные вашего автомобиля должны оставаться «свежими»

Современные автомобили постоянно обмениваются сведениями о своём местоположении, скорости и окружении с другими транспортными средствами и бортовой инфраструктурой. Для того чтобы функции безопасности и будущие системы автономного вождения работали надёжно, информация должна быть не только точной, но и свежей: предупреждение о торможении, пришедшее с задержкой в одну секунду, может оказаться бесполезным. В этой статье исследуется, как поддерживать такие данные максимально актуальными в условиях загруженных беспроводных сетей, используя новый метод управления на основе обучения, который позволяет автомобилям самостоятельно решать, когда и как передавать данные.

«Умные» дороги, которые разделяют эфир

Исследование рассматривает перспективную дорожную сеть, где тысячи подключённых автомобилей делят ограниченный радиоспектр с существующими пользователями, например абонентами мобильной связи. Такая среда, называемая когнитивным Интернетом вещей, предполагает, что автомобили выступают в роли «вежливых гостей»: они могут занимать частоты только тогда, когда это не мешает приоритетным пользователям. При этом транспортные средства должны обмениваться данными между собой и с базовыми станциями достаточно быстро, чтобы поддерживать предупреждения о столкновениях, координацию движения и развлекательные сервисы. Совмещать эти требования сложно: автомобили быстро движутся, сигналы затухают, когда они петляют между городскими кварталами, и доступные каналы меняются изо мгновения в мгновение.

Figure 1
Figure 1.

Измерять свежесть, а не только скорость

Традиционно при проектировании сетей часто фокусируются на увеличении пропускной способности или снижении среднего задержки. Однако для сообщений, критичных для безопасности, важнее не эти усреднённые метрики, а возраст последнего статуса в момент получения. Авторы используют метрику, называемую Age of Information (возраст информации), которая растёт с течением времени после последнего успешного обновления и обнуляется при поступлении нового сообщения. В их модели каждая пара транспортных средств регулярно отправляет фрагменты данных. Если радиосвязь сильна и выбранный уровень мощности достаточен, текущий фрагмент быстро передаётся и возраст падает; если канал плох или мощность ограничена, оставшиеся данные переносятся дальше и возраст продолжает расти. Цель — выбирать радиоканалы и уровни мощности так, чтобы этот возраст оставался минимальным, при этом экономя энергию и защищая приоритетных пользователей от помех.

Обучение автомобилей сотрудничеству методом проб и ошибок

Поскольку беспроводная среда меняется быстро и каждое транспортное средство видит только локальную информацию, авторы формулируют задачу как задачу обучения, а не фиксированную формулу. Каждое авто действует как интеллектуальный агент, который многократно наблюдает свою ситуацию: какие каналы кажутся занятыми, насколько сильны его радиосвязи, сколько данных осталось отправить и каков возраст последнего обновления. На основе этого частичного наблюдения агент выбирает действие, сочетающее дискретный выбор (какой канал использовать или молчать) и непрерывный выбор (с каким уровнем мощности передавать). После выполнения действия система оценивает, насколько свежа информация, сколько энергии было потрачено и были ли нарушены приоритетные пользователи. Эта обратная связь превращается в сигнал вознаграждения, который направляет агентов в ходе многих смоделированных эпизодов к лучшим совместным решениям.

Figure 2
Figure 2.

Специальный алгоритм обучения для смешанных решений

Для обучения этих агентов авторы разработали улучшенную многоагентную версию популярного метода Proximal Policy Optimization. Их вариант, IMAPPO, использует центральный модуль обучения, который видит глобальное состояние и оценивает качество совместных действий всех автомобилей, в то время как каждое отдельное транспортное средство формирует приватное правило принятия решений, которое может применять автономно в реальном времени. Ключевым нововведением является усовершенствованная сеть принятия решений, естественно работающая как с дискретным выбором включения/выключения канала, так и с плавным диапазоном уровней мощности. В симуляциях на сетке городских улиц — с реальными расположениями автомобилей и базовых станций и учётом радиофизических эффектов, таких как затухание и помехи — предложенный метод сравнивают с несколькими современными алгоритмами обучения и случайной стратегией в качестве базовой линии.

Более свежие данные при меньших энергозатратах

Результаты показывают, что новый метод может поддерживать информацию заметно более свежей, потребляя при этом меньше энергии. При различных числах автомобилей и объёмах данных для передачи IMAPPO сокращает средний возраст информации примерно вдвое по сравнению с простым случайным доступом и превосходит другие продвинутые методы обучения с ощутимым отрывом. Одновременно он уменьшает общее потребление мощности автомобилями, что помогает экономить батарею и сокращать помехи другим пользователям спектра. Для неспециалиста это означает, что более интеллектуальное управление, основанное на обучении и определяющее, кто и когда должен говорить и с какой силой на беспроводной «дороге», может сделать подключённые и автономные автомобили безопаснее, эффективнее и более корректными по отношению к загруженному эфиру, которым им приходится делиться.

Цитирование: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x

Ключевые слова: подключенные автомобили, совместное использование радиоспектра, возраст информации, обучение с подкреплением, интернет вещей