Clear Sky Science · es

Método de asignación de recursos para Internet de las cosas cognitivo basado en un algoritmo de aprendizaje por refuerzo multiagente

· Volver al índice

Por qué los datos de tu coche deben mantenerse “frescos”

Los coches modernos comparten constantemente información sobre su posición, velocidad y entorno con otros vehículos e infraestructuras en la vía. Para que las funciones de seguridad y las futuras capacidades de conducción autónoma funcionen bien, esta información no solo debe ser precisa, sino también reciente: una alerta de frenado con un segundo de retraso puede ser inútil. Este artículo explora cómo mantener esos datos lo más actualizados posible en redes inalámbricas congestionadas, usando un nuevo método de control basado en aprendizaje que permite a los coches decidir, por sí mismos, cómo y cuándo transmitir.

Carreteras inteligentes que comparten las ondas

El estudio analiza una red vial futura en la que miles de coches conectados comparten un espectro radio limitado con usuarios existentes, como clientes de telefonía móvil. Este escenario, denominado Internet de las Cosas cognitivo, asume que los coches son “invitados respetuosos”: pueden tomar prestadas frecuencias solo cuando ello no perturbe a los usuarios primarios. Al mismo tiempo, los vehículos deben comunicarse entre sí y con estaciones base con suficiente rapidez para soportar advertencias de colisión, coordinación del tráfico y servicios de entretenimiento. Equilibrar estas exigencias es difícil porque los coches se mueven rápido, las señales se atenúan al atravesar manzanas urbanas y los canales disponibles cambian de un momento a otro.

Figure 1
Figure 1.

Midiendo frescura, no solo velocidad

El diseño tradicional de redes suele centrarse en aumentar la tasa de datos o reducir la latencia promedio. Sin embargo, para los mensajes críticos de seguridad en vehículos, lo que realmente importa es cuán antiguo está el último estado cuando llega a un receptor. Los autores usan una métrica llamada Edad de la Información (Age of Information), que crece con el tiempo transcurrido desde la última actualización exitosa y se restablece cuando llega un nuevo mensaje. En su modelo, cada par de vehículos envía repetidamente fragmentos de datos. Si el enlace inalámbrico es fuerte y el nivel de potencia elegido es suficiente, el fragmento actual se completa rápidamente y la edad disminuye; si la conexión es pobre o la potencia es limitada, los datos pendientes se acumulan y la edad sigue aumentando. El objetivo es elegir canales de radio y niveles de potencia de modo que esta edad se mantenga lo más baja posible, al tiempo que se ahorra energía y se protege a los usuarios primarios de la interferencia.

Enseñar a los coches a cooperar por ensayo y error

Dado que el entorno inalámbrico cambia rápidamente y cada coche solo dispone de información local, los autores plantean el problema como una tarea de aprendizaje en lugar de una fórmula fija. Cada coche actúa como un agente inteligente que observa de forma repetida su situación: qué canales parecen ocupados, cuán fuertes son sus enlaces de radio, cuánto dato queda por enviar y cuán antigua es su última actualización. Con esa visión parcial, escoge una acción que combina una elección discreta (qué canal usar, o si permanecer en silencio) con una elección continua (cuánta potencia transmitir). Tras actuar, el sistema mide cuán reciente está la información, cuánta potencia se usó y si se perturbó a algún usuario primario. Esta retroalimentación se convierte en una señal de recompensa que guía a los agentes, a lo largo de muchos episodios simulados, hacia mejores decisiones conjuntas.

Figure 2
Figure 2.

Un algoritmo de aprendizaje a medida para decisiones mixtas

Para entrenar a estos agentes, los autores desarrollan una versión multiagente mejorada de un método popular llamado Proximal Policy Optimization. Su variante, IMAPPO, utiliza un módulo central de entrenamiento que ve el estado global y evalúa la calidad de las acciones combinadas de todos los coches, mientras que cada coche individual aprende una regla de decisión privada que puede aplicar por sí mismo en tiempo real. Una innovación clave es una red de decisión mejorada que puede manejar de forma natural tanto la elección discreta de encendido/apagado de canales como el rango continuo de niveles de potencia posibles. En simulaciones de calles urbanas en forma de cuadrícula, con coches y estaciones base situados en posiciones realistas e incluyendo efectos radio como desvanecimiento e interferencia, el método propuesto se compara con varios algoritmos de aprendizaje de última generación y con una línea base aleatoria.

Datos más frescos con menos energía

Los resultados muestran que el nuevo método puede mantener la información notablemente más fresca al mismo tiempo que consume menos energía. Para distintos números de vehículos y diferentes cantidades de datos por enviar, IMAPPO reduce la Edad de la Información promedio hasta aproximadamente la mitad en comparación con el acceso aleatorio simple, y supera a otros métodos avanzados de aprendizaje por márgenes significativos. Al mismo tiempo, disminuye la energía total utilizada por los coches, ayudando a preservar la vida de la batería y a limitar la interferencia a otros usuarios del espectro. Para un lector general, esto significa que un control más inteligente basado en aprendizaje sobre quién habla cuándo y con qué potencia en la “vía” inalámbrica podría hacer que los vehículos conectados y autónomos sean más seguros, eficientes y respetuosos con las ondas congestionadas que deben compartir.

Cita: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x

Palabras clave: vehículos conectados, compartición del espectro inalámbrico, edad de la información, aprendizaje por refuerzo, internet de las cosas