Clear Sky Science · es

Arquitectura de hardware de bajo consumo para transformadas 2D múltiples en VVC

· Volver al índice

Por qué esto importa para tus pantallas

Ver una película en 4K en streaming o mantener una videollamada nítida puede parecer sencillo, pero tras la pantalla hay cálculos intensivos y consumo de energía significativos. A medida que el vídeo avanza hacia 8K y más allá, los chips de compresión actuales corren el riesgo de consumir demasiada energía, sobre todo en televisores, consolas de juego y dispositivos móviles. Este artículo presenta una nueva forma de construir el hardware en el núcleo del estándar Versatile Video Coding (VVC), reduciendo el consumo energético sin dejar de procesar vídeo de ultra alta definición en tiempo real.

De píxeles crudos a vídeo eficiente

Cada fotograma de un vídeo 4K contiene millones de píxeles. Si se transmitieran o almacenaran tal cual, la carga de datos sería enorme. Los estándares modernos de vídeo como H.264, HEVC y ahora VVC reducen estos datos convirtiendo bloques de píxeles en patrones de frecuencia mediante operaciones matemáticas llamadas transformadas. VVC logra compresión adicional aplicando varias variantes y tamaños de transformada, eligiendo la mejor opción para cada parche de la imagen. Esta flexibilidad mejora la calidad de imagen a menores tasas de bits, pero también hace que el hardware sea más complejo y consuma más energía.

El problema energético dentro de los chips de vídeo

El hardware convencional para el motor de multi‑transformadas de VVC tiende a mantener grandes matrices de multiplicadores, sumadores y bloques de memoria activos incluso cuando solo se necesita una pequeña parte. Como las transformadas 2D se realizan en dos pasadas 1D con un paso intermedio de transposición, los diseños existentes a menudo mantienen sus memorias de transposición y almacenes de coeficientes conmutando para todos los tamaños de bloque, desde los pequeños 4×4 hasta 64×64. Esa actividad constante desperdicia energía: bancos de memoria sin usar siguen alternando, las unidades aritméticas procesan rutas de datos inactivas y las señales de reloj impulsan carriles que no contribuyen al bloque actual. Esto socava las ganancias de eficiencia que promete VVC, especialmente en dispositivos embebidos y con batería.

Figure 1
Figura 1.

Un motor de transformadas más inteligente

Los autores proponen una nueva arquitectura de transformada 2D que soporta todos los tamaños cuadrados de bloque de VVC y tres tipos clave de transformada (dos variantes cosenoidales y una basada en seno), al tiempo que reduce agresivamente la potencia dinámica. En su núcleo hay una unidad de procesamiento 1D flexible formada por multiplicadores y sumadores personalizados construidos a partir de lógica básica en lugar de bloques digitales genéricos. Esta elección permite que el diseño encienda o apague carriles individuales según el tamaño del bloque. Para un bloque 4×4, solo cuatro carriles multiplicadores están activos; para 8×8, ocho carriles; para 16×16 y mayores, se habilitan más carriles en grupos. Esta “aislación de puerta selectiva” reduce los conmutaciones innecesarias dentro del árbol aritmético, sin sacrificar el rendimiento, de modo que una vez llena la tubería el hardware puede producir un valor transformado por cada ciclo de reloj.

Reutilizar memoria en lugar de duplicarla

Entre las pasadas horizontal y vertical de la transformada 2D, los datos intermedios deben almacenarse y luego leerse en orden rotado (transpuesto). En lugar de usar un único búfer grande siempre encendido, el diseño introduce una Memoria Híbrida Unificada de Transposición (UHTM). Esta memoria se divide en muchos bancos pequeños organizados en mosaicos. Una lógica de direccionamiento inteligente asegura que las escrituras lleguen fila por fila y las lecturas salgan columna por columna, logrando la transposición puramente por la forma de direccionar las ubicaciones en lugar de mover los datos. Solo se activan los bancos que realmente contienen el bloque de transformada actual; todos los demás permanecen inactivos. Para bloques pequeños como 4×4 y 8×8, solo se usa un banco, mientras que los bloques más grandes activan progresivamente más bancos, preservando energía para las operaciones pequeñas habituales y escalando limpiamente hasta 64×64.

Figure 2
Figura 2.

Demostración en hardware real

El equipo implementó su diseño en un chip programable Xilinx Zynq‑7000 y midió su comportamiento en condiciones realistas. Funcionando a casi 349 MHz, el motor 2D completo puede manejar vídeo ultra‑HD 4K a 30 fotogramas por segundo, entregando un coeficiente de transformada por ciclo de reloj. A pesar de soportar más tamaños de bloque y tipos de transformada que muchos diseños anteriores, solo consume 129 miliamperios de potencia dinámica, con un coste energético de aproximadamente 370 picojulios por muestra. Comparaciones con otros hardware publicados muestran que los diseños competidores a menudo usan menos celdas lógicas pero consumen mucha más energía, porque dejan muchas unidades aritméticas y elementos de memoria conmutando constantemente. Aquí, la habilitación fina de reloj, la aislamiento de operandos y el control de memoria consciente de bancos mantienen activa solo la circuitería esencial.

Lo que esto significa para los dispositivos del futuro

En términos sencillos, los autores demuestran que una organización del trabajo más inteligente dentro del chip—apagar lo que no se necesita y reutilizar un núcleo y memoria flexibles—puede ofrecer compresión de vídeo de primera categoría con mucha menos energía desperdiciada. Su arquitectura soporta la gama completa de transformadas y tamaños de VVC, opera a alta velocidad y es adecuada para sistemas con restricciones energéticas como decodificadores, puertas de enlace domésticas y dispositivos portátiles. Con refinamientos adicionales y fabricación de chips a medida, ideas similares podrían ayudar al hardware de vídeo del mañana a seguir el ritmo de resoluciones y tasas de cuadro crecientes sin sobrecalentar baterías ni facturas de energía.

Cita: Palagani, M.B., Nalluri, P. Power-efficient hardware architecture for 2-D multiple transforms in VVC. Sci Rep 16, 9908 (2026). https://doi.org/10.1038/s41598-026-40519-1

Palabras clave: hardware de compresión de vídeo, Versatile Video Coding, diseño FPGA de bajo consumo, arquitectura de transformada 2D, procesamiento 4K ultra HD