Clear Sky Science · sv
Energieffektiv hårdvaruarkitektur för 2-D multipla transformeringar i VVC
Varför detta spelar roll för dina skärmar
Att strömma en 4K‑film eller ha ett skarpt videosamtal kan kännas enkelt, men under ytan krävs omfattande beräkningar och energi. När video utvecklas mot 8K och längre ökar risken att dagens komprimeringskretsar drar för mycket ström, särskilt i TV-apparater, spelkonsoler och mobilapparater. Denna artikel presenterar ett nytt sätt att bygga kärnhårdvaran för den senaste Versatile Video Coding‑standarden (VVC), vilket minskar energianvändningen samtidigt som den hanterar ultrahögupplöst video i realtid.
Från råpixlar till kompakt video
Varje bildruta i en 4K‑video innehåller miljontals pixlar. Om de skickades eller lagrades direkt skulle datamängden bli enorm. Moderna videotstandarder som H.264, HEVC och nu VVC minskar denna data genom att omvandla pixelblock till frekvensmönster med matematiska operationer kallade transformeringar. VVC uppnår ytterligare kompression genom att använda flera transformtyper och blockstorlekar och välja det bästa alternativet för varje del av bilden. Denna flexibilitet förbättrar bildkvaliteten vid lägre bithastigheter, men gör också hårdvaran mer komplex och strömkrävande.
Strömproblemet inne i videokretsar
Konventionell hårdvara för VVC:s multi‑transformmotor tenderar att hålla stora arrayer av multiplikatorer, adderare och minnesblock aktiva även när bara en liten del verkligen behövs. Eftersom 2‑D‑transformer utförs som två 1‑D‑pass med ett mellanliggande transponeringssteg, håller befintliga konstruktioner ofta sina transpose‑minnen och koefficientlagring växlande för alla blockstorlekar, från små 4×4 upp till 64×64. Denna ständiga aktivitet slösar energi: oanvända minnesbanker växlar ändå, aritmetiska enheter bearbetar inaktiva datapass och klocksignaler driver ledningar som inte bidrar till det aktuella blocket. Detta underminerar de effektivitetshöjningar VVC lovar, särskilt i inbyggda och batteridrivna enheter.

En smartare transformmotor
Författarna föreslår en ny 2‑D‑transformarkitektur som stödjer alla kvadratiska VVC‑blockstorlekar och tre viktiga transformtyper (två kosinusvarianter och en sinusbaserad typ), samtidigt som den aggressivt minskar dynamisk effekt. I kärnan finns en flexibel 1‑D‑bearbetningsenhet byggd av specialanpassade multiplikatorer och adderare uppbyggda från grundläggande logik snarare än generiska digitala signalblock. Detta tillåter designen att slå av eller på enskilda banor beroende på blockstorlek. För ett 4×4‑block är endast fyra multiplikatorbanor aktiva; för 8×8 åtta banor; för 16×16 och större aktiveras fler banor i grupper. Denna ”selektiva grindisolering” minskar onödig växling i den aritmetiska trädet utan att offra genomströmning, så när pipelinen väl är fylld kan hårdvaran producera ett transformerat värde per klockcykel.
Återanvända minne istället för att duplicera det
Mellan den horisontella och vertikala passeringen av 2‑D‑transformen måste det mellanliggande datat lagras och sedan läsas ut i roterad (transponerad) ordning. Istället för att använda en enda stor, alltid‑på buffert introducerar designen ett Unified Hybrid Transpose Memory (UHTM). Detta minne är indelat i många små banker organiserade som plattor. Klok adresseringslogik säkerställer att skrivningar anländer rad för rad och läsningar lämnar kolumn för kolumn, vilket uppnår transponeringen enbart genom hur adressering sker snarare än genom att flytta data. Endast de banker som faktiskt håller det aktuella transformblocket aktiveras; alla andra förblir vilande. För små block såsom 4×4 och 8×8 används endast en bank, medan större block successivt engagerar fler banker, vilket sparar energi vid vanliga små operationer men samtidigt skalar smidigt upp till 64×64.

Bevisat på verklig hårdvara
Teamet implementerade sin design på en Xilinx Zynq‑7000 fältprogrammerbar krets och mätte dess beteende under realistiska förhållanden. Körd vid nästan 349 MHz klarar den fulla 2‑D‑motorn ultrahögupplöst 4K‑video vid 30 rutor per sekund och levererar en transformkoefficient per klocka. Trots att den stödjer fler blockstorlekar och transformtyper än många tidigare konstruktioner förbrukar den endast 129 milliwatt dynamisk effekt, med en energikostnad på cirka 370 pikojoule per prov. Jämförelser med annan publicerad hårdvara visar att konkurrerande konstruktioner ofta använder färre logiska celler men förbrukar mycket mer energi, eftersom de låter många aritmetiska enheter och minneskomponenter växla konstant. Här håller finmaskig klockstyrning, operandisolering och bankmedveten minneskontroll endast nödvändig krets aktiv.
Vad detta betyder för framtida enheter
Enkelt uttryckt visar författarna att en smartare organisering av arbetet inne i kretsen — att stänga av det som inte behövs och återanvända en enda flexibel kärna och minne — kan leverera toppklassig videokomprimering med betydligt mindre spillenergi. Deras arkitektur stödjer hela spannet av VVC‑transformer och storlekar, arbetar i hög hastighet och är väl lämpad för energibegränsade system som set‑top‑boxar, hemgateways och bärbara enheter. Med vidare förfiningar och specialtillverkade kretsar kan liknande idéer hjälpa morgondagens videohårdvara att bibehålla takten med ökande upplösningar och bildfrekvenser utan att överhetta batterier eller elräkningar.
Citering: Palagani, M.B., Nalluri, P. Power-efficient hardware architecture for 2-D multiple transforms in VVC. Sci Rep 16, 9908 (2026). https://doi.org/10.1038/s41598-026-40519-1
Nyckelord: videokomprimeringshårdvara, Versatile Video Coding, lågenergi FPGA‑design, 2D transformarkitektur, 4K ultra HD‑bearbetning