Clear Sky Science · pl
Energooszczędna architektura sprzętowa dla 2‑Wielowymiarowych transformacji w VVC
Dlaczego ma to znaczenie dla twoich ekranów
Odtwarzanie filmu w 4K czy prowadzenie ostrego połączenia wideo może wydawać się bezwysiłkowe, ale w tle zachodzi intensywne przetwarzanie liczbowe i zużycie energii. W miarę jak wideo zmierza w kierunku 8K i dalej, dzisiejsze układy kompresujące mogą zużywać zbyt dużo mocy, szczególnie w telewizorach, konsolach do gier i urządzeniach mobilnych. Artykuł przedstawia nowy sposób budowy sprzętu będącego sercem najnowszego standardu Versatile Video Coding (VVC), redukując zużycie energii przy zachowaniu możliwości przetwarzania ultra‑wysokiej rozdzielczości w czasie rzeczywistym.
Od surowych pikseli do oszczędnego wideo
Każda klatka wideo 4K zawiera miliony pikseli. Gdyby wysyłać lub przechowywać je bez kompresji, obciążenie danych byłoby ogromne. Nowoczesne standardy wideo, takie jak H.264, HEVC, a teraz VVC, zmniejszają te dane, zamieniając bloki pikseli na wzorce częstotliwości za pomocą operacji matematycznych zwanych transformacjami. VVC osiąga dodatkową kompresję, stosując kilka odmian transformacji i rozmiarów bloków, wybierając najlepszą opcję dla każdego fragmentu obrazu. Ta elastyczność poprawia jakość obrazu przy niższych przepływnościach, ale jednocześnie komplikuje sprzęt i zwiększa pobór energii.
Problem z poborem mocy wewnątrz układów wideo
Konwencjonalny sprzęt dla silnika wielotransformacyjnego VVC zwykle utrzymuje duże tablice mnożników, sumatorów i bloków pamięci aktywne, nawet gdy potrzebna jest tylko ich część. Ponieważ transformacje 2‑D są wykonywane jako dwie jednowymiarowe przepustki z etapem pośredniej transpozycji, istniejące projekty często utrzymują pamięci transpozycyjne i magazyny współczynników aktywne dla wszystkich rozmiarów bloków, od malutkiego 4×4 do 64×64. Stała aktywność marnuje energię: nieużywane banki pamięci nadal przełączają się, jednostki arytmetyczne przetwarzają nieistotne ścieżki danych, a sygnały zegara napędzają obwody, które nie przyczyniają się do bieżącej pracy. To podważa korzyści energetyczne, które obiecuje VVC, szczególnie w urządzeniach wbudowanych i zasilanych z baterii.

Bardziej inteligentny silnik transformacji
Autorzy proponują nową architekturę transformacji 2‑D obsługującą wszystkie kwadratowe rozmiary bloków VVC oraz trzy kluczowe typy transformacji (dwie warianty kosinusowe i jeden oparty na sinusie), jednocześnie agresywnie redukując moc dynamiczną. W jej rdzeniu znajduje się elastyczna jednostka przetwarzania 1‑D złożona z niestandardowych mnożników i sumatorów zbudowanych z podstawowej logiki zamiast ogólnych bloków DSP. Takie rozwiązanie pozwala projektowi przełączać poszczególne linie na włączone lub wyłączone w zależności od rozmiaru bloku. Dla bloku 4×4 aktywne są tylko cztery ścieżki mnożników; dla 8×8 — osiem; dla 16×16 i większych — więcej ścieżek włączanych jest grupami. Ta „selektywna izolacja bramek” zmniejsza niepotrzebne przełączanie w strukturze arytmetycznej bez utraty przepustowości, tak że po napełnieniu potoku sprzęt może wygenerować jedną wartość transformacji na każdy takt zegara.
Wykorzystanie pamięci zamiast jej duplikowania
Pomiędzy poziomą i pionową przepustką transformacji 2‑D dane pośrednie muszą zostać zapisane i odczytane w obróconym (transponowanym) porządku. Zamiast używać jednego dużego, zawsze aktywnego bufora, projekt wprowadza Zunifikowaną Hybrydową Pamięć Transpozycyjną (UHTM). Pamięć ta podzielona jest na wiele małych banków zorganizowanych w kafelki. Sprytna logika adresowania zapewnia, że zapisy przychodzą wierszami, a odczyty wychodzą kolumnami, osiągając transpozycję przez sposób adresowania, a nie przez przemieszczanie danych. Aktywowane są tylko banki, które faktycznie zawierają bieżący blok transformacji; pozostałe pozostają bezczynne. Dla małych bloków, takich jak 4×4 i 8×8, używany jest tylko jeden bank, podczas gdy większe bloki stopniowo angażują kolejne banki, oszczędzając energię dla typowych małych operacji, a jednocześnie skalując się czysto do 64×64.

Weryfikacja na rzeczywistym sprzęcie
Zespół zaimplementował swój projekt na układzie programowalnym Xilinx Zynq‑7000 i zmierzył jego zachowanie w realistycznych warunkach. Pracując przy prawie 349 MHz, pełny silnik 2‑D radzi sobie z ultra‑HD 4K przy 30 klatkach na sekundę, dostarczając jeden współczynnik transformacji na takt zegara. Mimo że obsługuje więcej rozmiarów bloków i typów transformacji niż wiele wcześniejszych projektów, zużywa tylko 129 mW mocy dynamicznej, z kosztem energetycznym około 370 pJ na próbkę. Porównania z innym opublikowanym sprzętem pokazują, że konkurencyjne rozwiązania często używają mniej komórek logicznych, ale zużywają znacznie więcej mocy, ponieważ utrzymują wiele jednostek arytmetycznych i elementów pamięci w ciągłym przełączaniu. Tutaj drobne sterowanie zegarem, izolacja operandów i kontrola banków pamięci utrzymują aktywnymi jedynie niezbędne obwody.
Co to oznacza dla przyszłych urządzeń
Mówiąc wprost, autorzy pokazują, że mądrzejsza organizacja pracy wewnątrz układu — wyłączanie tego, co niepotrzebne, oraz ponowne użycie jednego elastycznego rdzenia i pamięci — może dostarczyć najwyższej klasy kompresję wideo przy znacznie mniejszych stratach energii. Ich architektura obsługuje pełen zakres transformacji i rozmiarów VVC, pracuje z dużą prędkością i jest dobrze dopasowana do systemów o ograniczonej energii, takich jak dekodery, bramy domowe i urządzenia przenośne. Przy dalszym dopracowaniu i produkcji układów ASIC podobne pomysły mogą pomóc przyszłemu sprzętowi wideo nadążyć za rosnącymi rozdzielczościami i liczbą klatek, nie przegrzewając baterii ani nie zawyżając rachunków za energię.
Cytowanie: Palagani, M.B., Nalluri, P. Power-efficient hardware architecture for 2-D multiple transforms in VVC. Sci Rep 16, 9908 (2026). https://doi.org/10.1038/s41598-026-40519-1
Słowa kluczowe: sprzęt do kompresji wideo, Versatile Video Coding, niskoprądowy projekt FPGA, architektura transformacji 2D, przetwarzanie 4K ultra HD