Clear Sky Science · zh

用于 VVC 中二维多重变换的节能硬件架构

· 返回目录

这对你屏幕的重要性

流式播放一部 4K 电影或进行清晰的视频通话看起来轻而易举,但在背后需要大量的计算和能量。随着视频向 8K 及更高分辨率发展,现有的压缩芯片在电视、游戏主机和移动设备中可能会消耗过多功率。本文提出了一种用于最新通用视频编码(VVC)标准核心硬件的新方法,在实时处理超高清(UHD)视频的同时大幅降低能耗。

从原始像素到精简视频

每一帧 4K 视频包含数百万像素。如果直接传输或存储,数据量将极其庞大。像 H.264、HEVC 以及现在的 VVC 等现代视频标准,通过对像素块施加称为变换的数学运算,将其转换为频率模式来压缩数据。VVC 通过应用多种变换类型和多种块大小,并为图像的每个区域选择最佳方案来获得额外的压缩率。这种灵活性在更低码率下改善了画质,但也使硬件更复杂、功耗更高。

视频芯片内部的功耗问题

传统的 VVC 多变换引擎硬件往往保持大量乘法器、加法器和存储块处于活动状态,即便只有一小部分是实际需要的。因为二维变换通常通过两次一维变换并在中间做转置来实现,现有设计常常让其转置存储器和系数存储在所有块大小(从 4×4 到 64×64)下持续切换。这种持续的活动会浪费能量:未使用的存储银行仍在切换,算术单元在空闲路径上处理数据,时钟信号驱动不参与当前块处理的通路。这削弱了 VVC 所承诺的效率增益,尤其是在嵌入式和电池供电设备中。

Figure 1
Figure 1.

更智能的变换引擎

作者提出了一种新的二维变换架构,支持所有方形 VVC 块大小和三种关键变换类型(两种余弦变体和一种基于正弦的类型),同时积极削减动态功耗。其核心是一个灵活的一维处理单元,由定制乘法器和加法器构成,这些算术单元由基本逻辑构建而非通用的数字信号模块。该选择使设计能够根据块大小按通道切换开关。对于 4×4 块,仅四条乘法器通道处于活动状态;对于 8×8,八条通道;对于 16×16 及更大尺寸,按组启用更多通道。此类“选择性门隔离”降低了算术树内部的不必要切换,而不牺牲吞吐量——一旦流水线填满,硬件可以在每个时钟周期输出一个变换值。

复用存储而非复制存储

在二维变换的水平和垂直两次传递之间,中间数据必须以旋转(转置)顺序存储并读取。设计引入了统一混合转置存储器(UHTM),而不是使用单个大型、始终开启的缓冲区。该存储器被划分为许多小银行并组织成瓦片。巧妙的寻址逻辑确保写入按行到达、读取按列离开,通过地址方式实现转置而非移动数据。只有实际保存当前变换块的存储银行会被激活;其余均处于空闲状态。对于诸如 4×4 和 8×8 的小块,仅使用一个银行,而较大的块则逐步启用更多银行,从而为常见的小型操作节省能量,同时能无缝扩展到 64×64。

Figure 2
Figure 2.

在真实硬件上的验证

团队在 Xilinx Zynq‑7000 可编程芯片上实现了他们的设计,并在现实条件下测量了其行为。工作频率接近 349 MHz 时,完整的二维引擎能够以每秒 30 帧处理超高清 4K 视频,并在每个时钟输出一个变换系数。尽管支持的块大小和变换类型比许多早期设计更多,但其动态功耗仅为 129 毫瓦,每个样本的能量约为 370 皮焦耳。与其他已发表的硬件比较显示,竞争设计虽然使用更少的逻辑单元,但功耗通常高得多,因为它们让许多算术单元和存储元件持续切换。在这里,细粒度的时钟门控、操作数隔离和基于银行的存储控制仅保持必要电路处于活动状态。

对未来设备的意义

简单来说,作者证明了在芯片内部更智能地组织工作——关闭不需要的部分并复用单一灵活的核心与存储——可以以更少的能量浪费实现顶级的视频压缩。他们的架构支持完整的 VVC 变换与块尺寸范围,能高速运行,并且非常适合机顶盒、家庭网关和便携设备等受能量约束的系统。通过进一步改进和定制芯片制造,类似的思路可帮助未来的视频硬件在分辨率和帧率提升的同时,不致使电池过热或电费飙升。

引用: Palagani, M.B., Nalluri, P. Power-efficient hardware architecture for 2-D multiple transforms in VVC. Sci Rep 16, 9908 (2026). https://doi.org/10.1038/s41598-026-40519-1

关键词: 视频压缩硬件, 通用视频编码(VVC), 低功耗 FPGA 设计, 二维变换架构, 4K 超高清处理