Clear Sky Science · pt

Arquitetura de hardware com eficiência energética para transformadas 2-D múltiplas em VVC

· Voltar ao índice

Por que isso importa para suas telas

Transmitir um filme em 4K ou manter uma chamada de vídeo nítida pode parecer trivial, mas por trás disso há intenso processamento numérico e consumo de energia. À medida que o vídeo avança para 8K e além, os chips de compressão atuais correm o risco de consumir energia demais, especialmente em TVs, consoles de jogos e dispositivos móveis. Este artigo apresenta uma nova maneira de construir o hardware no núcleo do mais recente padrão Versatile Video Coding (VVC), reduzindo o uso de energia sem deixar de processar vídeo ultra‑alta definição em tempo real.

Dos pixels brutos ao vídeo enxuto

Cada quadro de um vídeo 4K contém milhões de pixels. Se enviados ou armazenados diretamente, a carga de dados seria enorme. Padrões modernos de vídeo como H.264, HEVC e agora VVC reduzem esses dados convertendo blocos de pixels em padrões de frequência por meio de operações matemáticas chamadas transformadas. O VVC obtém compressão adicional aplicando várias variantes de transformadas e tamanhos de bloco, escolhendo a melhor opção para cada porção da imagem. Essa flexibilidade melhora a qualidade visual em taxas de bits menores, mas também torna o hardware mais complexo e com maior consumo de energia.

O problema de consumo dentro dos chips de vídeo

O hardware convencional para o motor de múltiplas transformadas do VVC tende a manter grandes matrizes de multiplicadores, somadores e blocos de memória ativos mesmo quando apenas uma pequena parte é realmente necessária. Como as transformadas 2‑D são feitas em duas passagens 1‑D com uma etapa intermediária de transposição, os projetos existentes frequentemente mantêm suas memórias de transposição e armazenamentos de coeficientes com comutação para todos os tamanhos de bloco, desde os minúsculos 4×4 até 64×64. Essa atividade constante desperdiça energia: bancos de memória não usados ainda alternam, unidades aritméticas processam caminhos de dados inativos e sinais de clock acionam trilhas que não contribuem para o bloco atual. Isso compromete os ganhos de eficiência prometidos pelo VVC, especialmente em dispositivos embarcados e alimentados por bateria.

Figure 1
Figure 1.

Um motor de transformada mais inteligente

Os autores propõem uma nova arquitetura de transformada 2‑D que suporta todos os tamanhos quadrados de bloco do VVC e três tipos principais de transformada (duas variantes cossenoidais e uma baseada em seno), enquanto reduz agressivamente a potência dinâmica. No núcleo está uma unidade de processamento 1‑D flexível, composta por multiplicadores e somadores customizados construídos a partir de lógica básica em vez de blocos genéricos de sinal digital. Essa escolha permite ao projeto ligar ou desligar pistas individuais conforme o tamanho do bloco. Para um bloco 4×4, apenas quatro pistas de multiplicador estão ativas; para 8×8, oito pistas; para 16×16 e maiores, mais pistas são habilitadas em grupos. Essa “isolação seletiva de portas” reduz a comutação desnecessária dentro da árvore aritmética, sem sacrificar a vazão, de modo que, uma vez o pipeline preenchido, o hardware pode produzir um valor transformado a cada ciclo de clock.

Reutilizando memória em vez de duplicá‑la

Entre as passagens horizontal e vertical da transformada 2‑D, os dados intermediários precisam ser armazenados e depois lidos em ordem rotacionada (transposta). Em vez de usar um único buffer grande sempre ativo, o projeto introduz uma Memória Híbrida Unificada de Transposição (UHTM). Essa memória é dividida em muitos pequenos bancos organizados em blocos (tiles). Uma lógica de endereçamento inteligente garante que as escritas cheguem linha a linha e as leituras partam coluna a coluna, alcançando a transposição puramente pela forma como as posições são endereçadas, em vez de mover os dados. Apenas os bancos que realmente contêm o bloco de transformada atual são ativados; todos os outros permanecem inativos. Para blocos pequenos, como 4×4 e 8×8, apenas um banco é usado, enquanto blocos maiores engajam progressivamente mais bancos, preservando energia para operações pequenas e comuns e escalando de forma limpa até 64×64.

Figure 2
Figure 2.

Comprovando em hardware real

A equipe implementou seu projeto em um chip programável Xilinx Zynq‑7000 e mediu seu comportamento em condições realistas. Operando a quase 349 MHz, o motor 2‑D completo consegue processar vídeo ultra‑HD 4K a 30 quadros por segundo, produzindo um coeficiente de transformada por clock. Apesar de suportar mais tamanhos de bloco e tipos de transformada do que muitos projetos anteriores, ele consome apenas 129 milliwatts de potência dinâmica, com um custo energético de cerca de 370 picojoules por amostra. Comparações com outros hardwares publicados mostram que projetos concorrentes frequentemente usam menos células lógicas, mas gastam muito mais energia, porque deixam muitas unidades aritméticas e elementos de memória comutando constantemente. Aqui, o gating de clock em grão fino, a isolação de operandos e o controle de memória ciente de bancos mantêm ativa apenas a circuitaria essencial.

O que isso significa para dispositivos futuros

Em termos simples, os autores demonstram que organizar o trabalho dentro do chip de forma mais inteligente — desligando o que não é necessário e reutilizando um núcleo e uma memória flexíveis — pode entregar compressão de vídeo de alto nível com muito menos desperdício de energia. A arquitetura suporta toda a gama de transformadas e tamanhos do VVC, opera em alta velocidade e é bem adequada a sistemas com restrição de energia, como set‑top boxes, gateways domésticos e dispositivos portáteis. Com refinamentos adicionais e fabricação de chips personalizados, ideias semelhantes podem ajudar o hardware de vídeo de amanhã a acompanhar resoluções e taxas de quadros crescentes sem sobrecarregar baterias ou contas de energia.

Citação: Palagani, M.B., Nalluri, P. Power-efficient hardware architecture for 2-D multiple transforms in VVC. Sci Rep 16, 9908 (2026). https://doi.org/10.1038/s41598-026-40519-1

Palavras-chave: hardware de compressão de vídeo, Versatile Video Coding, projeto FPGA de baixo consumo, arquitetura de transformada 2D, processamento 4K ultra HD