Clear Sky Science · ru
Энергоэффективная аппаратная архитектура для 2‑D множественных преобразований в VVC
Почему это важно для ваших экранов
Просмотр 4K‑фильма в потоковом режиме или ведение чёткого видеозвонка может казаться простым, но за этим скрывается серьёзная вычислительная и энергетическая нагрузка. По мере перехода видео к 8K и далее, современные чипы с компрессией рискуют потреблять слишком много энергии, особенно в телевизорах, игровых консолях и мобильных устройствах. В статье предложен новый способ построения аппаратной части ключевого блока стандарта Versatile Video Coding (VVC), уменьшающий энергопотребление при сохранении возможности обрабатывать ультра‑высокое разрешение в реальном времени.
От исходных пикселей к экономному видео
Каждый кадр 4K‑видео содержит миллионы пикселей. При прямой передаче или хранении объём данных был бы огромен. Современные видеостандарты — H.264, HEVC и теперь VVC — уменьшают эти данные, преобразуя блоки пикселей в частотные представления с помощью математических операций, называемых преобразованиями. VVC добивается дополнительной компрессии, применяя несколько вариантов преобразований и размеров блоков, выбирая для каждой части изображения наилучший вариант. Такая гибкость улучшает качество изображения при более низких битрейтах, но также усложняет аппаратную реализацию и повышает энергопотребление.
Проблема энергопотребления внутри видео‑чипов
Традиционные аппаратные реализации многоформатного блока преобразований VVC обычно держат включёнными большие массивы умножителей, сумматоров и блоков памяти, даже когда реально требуется лишь небольшая их часть. Поскольку 2‑D преобразования выполняются как два 1‑D прохода с промежуточной транспозицией, существующие проекты часто держат в переключающемся состоянии память для транспозиции и хранилища коэффициентов для всех размеров блоков — от крошечных 4×4 до 64×64. Такая постоянная активность приводит к потере энергии: неиспользуемые банковки памяти всё равно переключаются, арифметические блоки работают по неактуальным путям данных, а тактовые сигналы питают линии, не вносящие вклад в текущее преобразование. Это подрывает энергетику, которую обещает VVC, особенно в встраиваемых и питаемых от батареи устройствах.

Более умный движок преобразований
Авторы предлагают новую 2‑D архитектуру преобразования, поддерживающую все квадратные размеры блоков VVC и три ключевых типа преобразований (две варианты на основе косинуса и один на основе синуса), при этом агрессивно сокращающую динамическую мощность. В основе лежит гибкий 1‑D вычислительный блок, собранный из кастомных умножителей и сумматоров, реализованных на базовой логике, а не на общих DSP‑блоках. Такое решение позволяет включать и выключать отдельные каналы в зависимости от размера блока. Для блока 4×4 активны только четыре канала умножителей; для 8×8 — восемь; для 16×16 и больше — каналы включаются группами. Такая «селективная изоляция путей» снижает ненужное переключение внутри арифметического дерева, не жертвуя пропускной способностью: после заполнения конвейера аппаратура способна выдавать одно преобразованное значение за такт.
Повторное использование памяти вместо её дублирования
Между горизонтальным и вертикальным проходами 2‑D преобразования промежуточные данные нужно сохранить и затем прочитать в повернутом (транспонированном) порядке. Вместо одного большого постоянно активного буфера в дизайне введена Унифицированная Гибридная Транспозная Память (UHTM). Эта память разделена на многие мелкие банки, организованные в плитки. Продуманная логика адресации обеспечивает запись построчно и чтение поколоночно, реализуя транспозицию за счёт порядка обращений к ячейкам, а не перемещения данных. Активируются только те банки, которые действительно содержат текущий блок преобразования; все остальные остаются в покое. Для маленьких блоков, таких как 4×4 и 8×8, используется одна банковая область, в то время как для больших блоков последовательно вовлекаются дополнительные банки, что экономит энергию при типичных мелких операциях и при этом масштабируется до 64×64.

Доказательство на реальном оборудовании
Команда реализовала свою схему на программируемой логической плате Xilinx Zynq‑7000 и измерила её поведение в реалистичных условиях. При частоте около 349 МГц полноценный 2‑D движок способен обрабатывать ультра‑HD 4K‑видео со скоростью 30 кадров в секунду, выдавая один коэффициент преобразования за такт. Несмотря на поддержку большего числа размеров и типов преобразований по сравнению с ранними разработками, аппарат потребляет всего 129 милливатт динамической мощности, с энергозатратами примерно 370 пико‑джоулей на выборку. Сравнения с опубликованными решениями показывают, что у конкурентов может использоваться меньше логических ячеек, но они тратят значительно больше энергии, поскольку многие арифметические блоки и элементы памяти постоянно переключаются. Здесь тонкая сегментация тактирования, изоляция операндов и управление памятью по банкам удерживают активными лишь необходимые цепи.
Что это значит для будущих устройств
Проще говоря, авторы демонстрируют, что более разумная организация работы внутри чипа — отключение ненужных частей и повторное использование единого гибкого ядра и памяти — позволяет обеспечить передовую видео‑компрессию с гораздо меньшими потерями энергии. Их архитектура поддерживает полный набор преобразований и размеров VVC, работает на высокой скорости и хорошо подходит для энергозависимых систем, таких как приставки, домашние шлюзы и портативные устройства. С дальнейшими доработками и при изготовлении по заказанным интегральным технологиям схожие идеи могут помочь будущему видео‑железу идти в ногу с растущими разрешениями и частотами кадров без перегрева батарей или роста счетов за электроэнергию.
Цитирование: Palagani, M.B., Nalluri, P. Power-efficient hardware architecture for 2-D multiple transforms in VVC. Sci Rep 16, 9908 (2026). https://doi.org/10.1038/s41598-026-40519-1
Ключевые слова: аппаратное обеспечение сжатия видео, Versatile Video Coding, низкопотребляющий дизайн FPGA, архитектура 2D‑преобразований, обработка 4K ultra HD