Clear Sky Science · es

DRLO-VANET: un marco de descarga de tareas basado en aprendizaje por refuerzo profundo para ejecución de tareas con baja latencia y eficiencia energética en VANETs

· Volver al índice

Por qué importa una computación más inteligente en los coches

Los coches modernos, especialmente los autónomos, se están convirtiendo en ordenadores rodantes. Constantemente interpretan imágenes de cámaras, radares, mapas e información del tráfico para mantener a los pasajeros seguros y la circulación fluida. Pero todo ese procesamiento requiere tiempo y energía. Los coches actuales pueden procesar los datos a bordo o enviarlos a ordenadores cercanos en la vía. Elegir mal puede provocar demoras, tareas perdidas o gasto innecesario de batería. Este artículo explora una nueva forma de tomar esas decisiones automáticamente e de manera inteligente, usando algoritmos de aprendizaje que se adaptan en tiempo real a las condiciones del tráfico y de la red.

Figure 1
Figure 1.

Coches, carreteras y asistentes cercanos

En las ciudades del futuro, los vehículos no solo se comunicarán entre sí, sino también con pequeños ordenadores integrados en unidades en el borde de la carretera. Estas unidades en la vía actúan como mini centros de datos locales, mucho más cerca que los servidores en la nube lejana. Un coche que se acerca a una intersección puede tener que ejecutar una tarea exigente, como combinar datos de cámaras y sensores para detectar peatones ocultos. Puede procesar esa tarea en su propio procesador limitado o descargarla a una de las unidades en la vía. La mejor opción depende de cuánto tráfico haya, de la carga de cada ordenador en la vía, de la calidad de la señal inalámbrica y de la urgencia de la tarea. Dado que todas estas condiciones cambian segundo a segundo, las reglas estáticas —como usar siempre la unidad más cercana— fallan bajo tráfico real.

Dejar que el sistema aprenda por sí mismo

Los autores proponen DRLO-VANET, un marco que permite al sistema aprender buenas decisiones por ensayo y error en lugar de depender de reglas diseñadas a mano. En su planteamiento, cada vehículo se trata como un tomador de decisiones que observa su entorno: densidad de vehículos, calidad de la señal, nivel de batería, tamaño y plazo de cada tarea, y la carga de las unidades en la vía. Un agente de aprendizaje elige entonces entre varias opciones: procesar localmente, enviar la tarea a una de las unidades en la vía o incluso dividir el trabajo entre el coche y la unidad en la vía. Tras cada decisión, el sistema mide cuánto tardó la tarea, cuánta energía consumió, si se completó antes de su plazo, qué tan equilibrado fue el uso de las unidades en la vía y cuántas veces el coche tuvo que cambiar de una unidad a otra mientras se movía. Estos resultados se combinan en una única puntuación de retroalimentación que orienta al agente de aprendizaje hacia decisiones mejores con el tiempo.

Construir un banco de pruebas realista

Para evaluar si la estrategia aprendida funcionaría en la práctica, los investigadores construyeron una simulación informática detallada usando el simulador de redes ns-3 enlazado a una herramienta de aprendizaje por refuerzo. Su ciudad virtual incluye cruces, vehículos en movimiento con diferentes velocidades y unidades en la vía dispuestas en una rejilla de modo que las áreas de cobertura se solapan como en un despliegue real. Los enlaces inalámbricos siguen modelos realistas para autopistas abiertas y “cañones” urbanos densos, donde los edificios causan reflexiones y pérdidas de señal. En cada vehículo llegan tareas de distintos tamaños y plazos, y los ordenadores en la vía se modelan con colas y potencia de procesamiento limitada, por lo que pueden congestionarse cuando muchos coches descargan a la vez. Dos métodos de aprendizaje populares, Deep Q-Networks y Soft Actor-Critic, se usan para entrenar políticas de decisión a lo largo de muchas simulaciones de conducción y condiciones de canal.

Figure 2
Figure 2.

Qué tan bien funciona el enfoque basado en aprendizaje

El equipo comparó DRLO-VANET con tres alternativas comunes: procesar siempre a bordo, descargar siempre a la unidad en la vía más cercana y una estrategia “codiciosa” que persigue la menor latencia inmediata sin planificar. En tráfico ligero, todos los métodos rinden razonablemente, pero conforme más coches entran en la red se revelan las debilidades de las reglas simples. La descarga a la unidad más cercana sobrecarga a pocas unidades en la vía, provocando colas largas. La estrategia codiciosa minimiza la latencia al principio pero obliga a los vehículos a cambiar repetidamente entre unidades en la vía, añadiendo sobrecarga e inestabilidad. En contraste, la política aprendida DRLO-VANET distribuye la carga de forma más uniforme, evita enlaces inalámbricos claramente malos y limita cambios de unidad innecesarios. En las simulaciones, reduce la latencia de las tareas hasta en alrededor de un 40 %, disminuye el uso de energía entre un 30 y 35 %, mantiene más del 90 % de las tareas dentro del plazo en tráfico medio y reduce a la mitad aproximadamente los eventos de cambio de unidad frente al método codicioso.

Qué significa esto para los conductores cotidianos

Para el público general, la idea principal es que coches y carreteras pueden cooperar de forma mucho más inteligente de lo que lo hacen hoy. En lugar de reglas rígidas, un controlador basado en aprendizaje puede observar cuán ocupada está la carretera y la red y elegir discretamente dónde debe ejecutarse cada tarea digital para que las respuestas sigan siendo rápidas, las baterías duren más y el equipo en la vía no se vea desbordado. Aunque este estudio se basa en simulación y no en coches reales, apunta hacia un futuro en el que el “pensamiento” necesario para la conducción autónoma se reparta automáticamente entre los vehículos y la infraestructura cercana, haciendo que los servicios avanzados de seguridad y navegación sean más fiables incluso en un tráfico concurrido y de rápida variación.

Cita: Neelima, S., Sree, S.R. & Ramakrishnaiah, N. DRLO-VANET: a deep reinforcement learning-based offloading framework for low-latency and energy-efficient task execution in VANETs. Sci Rep 16, 10582 (2026). https://doi.org/10.1038/s41598-026-46336-w

Palabras clave: vehículos autónomos, computación en el borde, redes vehiculares, aprendizaje por refuerzo, descarga de tareas