Clear Sky Science · ru

Оптимизация производительности на основе Soft Actor‑Critic для когнитивных радиосистем с поддержкой IRS

2026-05-05 · Назад к списку

Более умный эфир для переполненного беспроводного мира

Наши телефоны, датчики и умные дома конкурируют за один и тот же невидимый ресурс — радиоволны. По мере увеличения числа подключённых устройств извлечь дополнительную производительность из ограниченного спектра становится жизненно важным. В этой статье рассматривается новый способ повысить скорости передачи данных у пользователей низкого приоритета без вреда для пользователей высокого приоритета — за счёт сочетания «умных стен», перенаправляющих радиоволны, и метода машинного обучения, который обучает сеть самостоятельно настраиваться.

Совместное использование без «перекрикивания» соседей

В современных беспроводных системах часто применяется модель «первичный» и «вторичный» пользователь. Первичные пользователи, например лицензированные сервисы, имеют приоритетный доступ к определённым частотам. Вторичные пользователи могут повторно использовать те же каналы только при условии, что их помехи остаются в строгих пределах. Это и есть основная идея когнитивного радио: радиостанции, которые оценивают окружающую среду и адаптируются, чтобы спектр использовался более эффективно. Задача состоит в том, чтобы обеспечить вторичным пользователям хорошие скорости передачи данных, оставаясь при этом практически незаметными для первичных пользователей. Традиционные подходы опираются на сложную обработку сигналов на базовой станции, что быстро усложняется по мере роста плотности сетей и увеличения числа антенн.

Изгибание сигналов с помощью интеллектуальных отражающих поверхностей

Авторы добавляют в арсенал мощный новый инструмент: интеллектуальные отражающие поверхности. Это тонкие панели, состоящие из множества крошечных пассивных элементов, которые могут настраивать то, как они отражают падающие радиоволны — как стена управляемых зеркал для беспроводных сигналов. Тщательно выбирая схему отражения, поверхность может направлять энергию к целевому вторичному пользователю и в сторону от приёмников первичного уровня, улучшая производительность без увеличения мощности передачи. В статье анализируется система, где базовая станция с большим количеством антенн обслуживает вторичных пользователей, а несколько отражающих панелей помогают формировать траектории сигналов в среде при реалистичных миллиметроволновых условиях распространения.

Обучение сети самостоятельной настройке

Найти лучшую комбинацию схем лучевой передачи базовой станции, мощности передачи и миллионов мелких настроек фаз отражения — запутанная математическая задача. Классические методы оптимизации, такие как блочная декомпозиция (block coordinate descent), решают её, поочередно оптимизируя одни группы переменных, затем другие. Такие методы работают, но становятся медленными и неудобными по мере увеличения размеров поверхностей или изменения среды. Вместо этого авторы формулируют задачу как задачу обучения агента глубокого обучения с подкреплением, используя алгоритм soft actor‑critic (SAC). В этой схеме агент наблюдает текущие характеристики канала, прошлые фазы отражения и мощность передачи, а затем предлагает новые настройки отражения. Он получает вознаграждение в основном на основе достигнутой скорости передачи данных вторичного пользователя при условии, что помехи для первичных пользователей остаются ниже допустимого порога. За множество симулированных взаимодействий агент обучается политике, которая напрямую сопоставляет наблюдения с близкими к оптимальным конфигурациями.

Результаты в моделировании и аппаратных испытаниях

В обширных симуляциях контроллер на базе SAC сравнивается с традиционным эталоном на основе блочной декомпозиции по нескольким показателям: достижимая скорость передачи вторичных пользователей, влияние числа отражающих элементов и панелей, ограничения мощности передачи и требования по помехам. Обученная политика последовательно достигает или превосходит эталон по скорости передачи, особенно когда у интеллектуальных поверхностей много элементов, при этом требуя намного меньше итерационных вычислений после завершения обучения. В работе также оценивается время выполнения: для небольших поверхностей классические методы могут быть немного быстрее, но по мере роста системы подход на основе обучения масштабируется лучше. Для поддержки практического внедрения авторы проектируют, изготавливают и тестируют базовую станцию с антенной решёткой из 16 элементов, работающую в диапазоне 3–7 ГГц. Измерения показывают хорошее согласование, низкую корреляцию между антеннами и примерно 90% эффективности излучения, подтверждая, что аппаратная платформа способна поддерживать требовательную многоканальную работу.

Что это значит для будущих беспроводных сетей

Проще говоря, эта работа показывает, как сочетание умных отражающих панелей и алгоритма обучения позволяет устройствам низкого приоритета более активно разделять спектр, не нарушая работу сервисов высокого приоритета. Вместо ручных формул сеть учится сама наводить и формировать свои сигналы, даже в сложных средах и при большом числе управляемых элементов. По мере эволюции беспроводных систем после 5G такие подходы могут помочь обеспечить более высокие скорости передачи, лучшее покрытие и более эффективное использование дефицитного спектра, сохраняя контроль над помехами.

Цитирование: Ghallab, R., Abdrabo, A. & Elashry, I. Soft actor critic-based performance optimization for IRS-aided cognitive radio systems. Sci Rep 16, 14283 (2026). https://doi.org/10.1038/s41598-026-49465-4

Ключевые слова: когнитивное радио, интеллектуальные отражающие поверхности, глубокое обучение с подкреплением, распределение радиоспектра, soft actor critic