Clear Sky Science · it

Architettura hardware a basso consumo per trasformate 2-D multiple in VVC

2026-02-19 · Torna all'indice

Perché è importante per i tuoi schermi

Guardare in streaming un film in 4K o partecipare a una videochiamata nitida può sembrare semplicissimo, ma dietro c’è un grande lavoro di calcolo e consumo di energia. Con il video che si spinge verso l’8K e oltre, gli odierni chip di compressione rischiano di consumare troppa potenza, specie in TV, console e dispositivi mobili. Questo articolo presenta un nuovo modo di costruire l’hardware al centro dello standard Versatile Video Coding (VVC), riducendo il consumo energetico pur gestendo video ultra‑alta definizione in tempo reale.

Dai pixel grezzi a video snelli

Ogni fotogramma di un video 4K contiene milioni di pixel. Se fossero inviati o memorizzati così come sono, il carico di dati sarebbe enorme. Gli standard video moderni come H.264, HEVC e ora VVC comprimono questi dati convertendo blocchi di pixel in pattern di frequenza mediante operazioni matematiche chiamate trasformate. VVC ottiene una compressione maggiore applicando più varianti di trasformata e diverse dimensioni di blocco, scegliendo l’opzione migliore per ogni porzione dell’immagine. Questa flessibilità migliora la qualità visiva a bit rate più bassi, ma rende anche l’hardware più complesso e più affamato di energia.

Il problema del consumo nei chip video

L’hardware convenzionale per il motore multi‑trasformata di VVC tende a mantenere attive grandi matrici di moltiplicatori, addizionatori e blocchi di memoria anche quando è necessario solo un sottoinsieme. Poiché le trasformate 2‑D vengono eseguite come due passaggi 1‑D con uno step intermedio di trasposizione, i progetti esistenti spesso tengono le memorie di trasposizione e gli archivi di coefficienti sempre in commutazione per tutte le dimensioni di blocco, dai minuscoli 4×4 fino ai 64×64. Questa attività costante spreca energia: banchi di memoria inutilizzati continuano a cambiare stato, le unità aritmetiche processano percorsi dati inattivi e i segnali di clock guidano linee che non contribuiscono al blocco corrente. Questo mina i guadagni di efficienza promessi da VVC, in particolare in dispositivi embedded e alimentati a batteria.

Un motore di trasformata più intelligente

Gli autori propongono una nuova architettura di trasformata 2‑D che supporta tutte le dimensioni quadrate dei blocchi VVC e tre principali tipi di trasformata (due varianti coseno e una basata sul seno), riducendo in modo aggressivo la potenza dinamica. Al centro c’è un’unità di elaborazione 1‑D flessibile composta da moltiplicatori e addizionatori personalizzati costruiti con logica di base anziché blocchi digitali generici. Questa scelta permette al progetto di attivare o disattivare singole corsie a seconda della dimensione del blocco. Per un blocco 4×4 sono attive solo quattro corsie di moltiplicazione; per 8×8 otto corsie; per 16×16 e dimensioni maggiori si abilitano gruppi di corsie. Questa “isolamento selettivo delle porte” riduce le commutazioni inutili nell’albero aritmetico senza sacrificare il throughput, in modo che una volta piena la pipeline l’hardware possa produrre un valore trasformato per ogni ciclo di clock.

Riutilizzare la memoria invece di duplicarla

Tra la passata orizzontale e quella verticale della trasformata 2‑D, i dati intermedi devono essere memorizzati e poi letti in ordine ruotato (trasposto). Invece di usare un unico buffer grande e sempre attivo, il progetto introduce una Memoria di Trasposizione Ibrida Unificata (UHTM). Questa memoria è divisa in molti piccoli banchi organizzati a tiles. Una logica di indirizzamento intelligente garantisce che le scritture arrivino riga per riga e le letture escano colonna per colonna, realizzando la trasposizione esclusivamente tramite come sono indirizzate le locazioni anziché muovendo i dati. Solo i banchi che effettivamente contengono il blocco di trasformata corrente vengono attivati; tutti gli altri restano inattivi. Per blocchi piccoli come 4×4 e 8×8 viene usato un solo banco, mentre blocchi più grandi coinvolgono progressivamente più banchi, preservando energia per le operazioni piccole più comuni e scalando in modo pulito fino a 64×64.

Dimostrarlo su hardware reale

Il team ha implementato il progetto su un chip programmabile Xilinx Zynq‑7000 e ne ha misurato il comportamento in condizioni realistiche. A quasi 349 MHz, il motore 2‑D completo può gestire video ultra‑HD 4K a 30 fotogrammi al secondo, fornendo un coefficiente di trasformata per ciclo di clock. Pur supportando più dimensioni di blocco e tipi di trasformata rispetto a molti progetti precedenti, consuma solo 129 milliwatt di potenza dinamica, con un costo energetico di circa 370 picojoule per campione. Confronti con altri hardware pubblicati mostrano che progetti concorrenti spesso usano meno celle logiche ma consumano molta più potenza, perché lasciano molte unità aritmetiche ed elementi di memoria continuamente in commutazione. Qui, il clock gating a grana fine, l’isolamento degli operandi e il controllo della memoria consapevole dei banchi mantengono attivi soltanto i circuiti essenziali.

Cosa significa per i dispositivi futuri

In termini pratici, gli autori dimostrano che un’organizzazione del lavoro più intelligente dentro il chip—spegnendo ciò che non serve e riutilizzando un singolo core e una memoria flessibili—può offrire compressione video di alto livello con molta meno energia sprecata. La loro architettura supporta l’intera gamma di trasformate e dimensioni VVC, opera ad alta velocità ed è ben adatta a sistemi a vincolo energetico come set‑top box, gateway domestici e dispositivi portatili. Con ulteriori perfezionamenti e produzione di chip su misura, idee simili potrebbero aiutare l’hardware video di domani a tenere il passo con l’aumento di risoluzioni e frame rate senza surriscaldare batterie o bollette energetiche.

Citazione: Palagani, M.B., Nalluri, P. Power-efficient hardware architecture for 2-D multiple transforms in VVC. Sci Rep 16, 9908 (2026). https://doi.org/10.1038/s41598-026-40519-1

Parole chiave: hardware per compressione video, Versatile Video Coding, progettazione FPGA a basso consumo, architettura di trasformata 2D, elaborazione 4K ultra HD