Clear Sky Science · pt

Um método de alocação de recursos para internet cognitiva das coisas baseado em algoritmo de aprendizado por reforço multiagente

2026-02-07 · Voltar ao índice

Por que os dados do seu carro precisam permanecer “frescos”

Carros modernos compartilham constantemente informações sobre sua posição, velocidade e entorno com outros veículos e equipamentos à beira da estrada. Para que os recursos de segurança e as futuras funções de direção autônoma funcionem bem, essas informações precisam ser não apenas precisas, mas também recentes: um alerta de frenagem com um segundo de atraso pode ser inútil. Este artigo explora como manter esses dados o mais atualizados possível em redes sem fio congestionadas, usando um novo tipo de método de controle baseado em aprendizado que permite aos carros decidir, por conta própria, como e quando transmitir.

Estradas inteligentes que compartilham o espectro

O estudo examina uma rede viária futura onde milhares de carros conectados compartilham um espectro de rádio limitado com usuários existentes, como clientes de telefonia móvel. Esse cenário, chamado Internet das Coisas cognitiva, pressupõe que os carros sejam “convidados educados”: eles podem usar frequências apenas quando isso não atrapalhar os usuários primários. Ao mesmo tempo, os veículos precisam se comunicar entre si e com estações-base com rapidez suficiente para suportar alertas de colisão, coordenação de tráfego e serviços de entretenimento. Equilibrar essas demandas é difícil porque os carros se movem rápido, os sinais se atenuam enquanto cruzam quarteirões e os canais disponíveis mudam de um momento para o outro.

Medindo frescor, não apenas velocidade

O projeto tradicional de redes frequentemente se concentra em aumentar a taxa de dados ou reduzir o atraso médio. No entanto, para mensagens automotivas críticas à segurança, o que realmente importa é há quanto tempo a atualização de status mais recente chegou ao receptor. Os autores usam uma métrica chamada Idade da Informação, que aumenta com o passar do tempo após a última atualização bem-sucedida e é zerada quando uma nova mensagem chega. No modelo deles, cada par de veículos envia repetidamente blocos de dados. Se o enlace sem fio é forte e o nível de potência escolhido for suficiente, o bloco atual é transmitido rapidamente e a idade cai; se a conexão for fraca ou a potência limitada, dados remanescentes se acumulam e a idade continua a subir. O objetivo é escolher canais de rádio e níveis de potência para que essa idade permaneça o mais baixa possível, ao mesmo tempo economizando energia e protegendo os usuários primários de interferências.

Ensinando os carros a cooperar por tentativa e erro

Como o ambiente sem fio muda rapidamente e cada carro vê apenas informações locais, os autores enquadram o problema como uma tarefa de aprendizado em vez de uma fórmula fixa. Cada carro atua como um agente inteligente que observa repetidamente sua situação: quais canais parecem ocupados, quão fortes são seus enlaces de rádio, quanto de dados resta a ser enviado e há quanto tempo não houve atualização. Com base nessa visão parcial, ele escolhe uma ação que combina uma escolha discreta (qual canal usar, ou se ficar em silêncio) com uma escolha contínua (quanta potência transmitir). Após agir, o sistema mede quão recentes estão as informações, quanta energia foi usada e se algum usuário primário foi perturbado. Esse retorno é transformado em um sinal de recompensa que orienta os agentes, ao longo de muitos episódios simulados, rumo a decisões conjuntas melhores.

Um algoritmo de aprendizado sob medida para decisões mistas

Para treinar esses agentes, os autores desenvolvem uma versão multiagente aprimorada de um método popular chamado Proximal Policy Optimization. A variante deles, IMAPPO, usa um módulo de treinamento central que vê o estado global e avalia quão boas são as ações combinadas de todos os carros, enquanto cada carro individual aprende uma regra de decisão privada que pode aplicar sozinho em tempo real. Uma inovação chave é uma rede de decisão melhorada que pode lidar naturalmente tanto com a escolha binária de ligar/desligar canais quanto com a faixa contínua dos possíveis níveis de potência. Em simulações de ruas urbanas em grade, com carros e estações-base colocados em posições realistas e efeitos de rádio como desvanecimento e interferência incluídos, o método proposto é comparado a vários algoritmos de aprendizado de ponta e a um baseline aleatório.

Dados mais frescos com menos energia

Os resultados mostram que o novo método consegue manter a informação visivelmente mais fresca enquanto consome menos energia. Considerando diferentes números de veículos e diferentes quantidades de dados a enviar, o IMAPPO reduz a Idade da Informação média em até cerca de metade em comparação com acesso aleatório simples, e supera outros métodos avançados de aprendizado por margens significativas. Ao mesmo tempo, reduz a potência total usada pelos carros, ajudando a preservar a vida útil da bateria e a limitar a interferência a outros usuários do espectro. Para um leitor leigo, isso significa que um controle mais inteligente e baseado em aprendizado sobre quem fala quando e com que intensidade na “via” sem fio poderia tornar veículos conectados e autônomos mais seguros, eficientes e mais respeitosos com as ondas de rádio congestionadas que precisam compartilhar.

Citação: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x

Palavras-chave: veículos conectados, compartilhamento de espectro sem fio, idade da informação, aprendizado por reforço, internet das coisas