Clear Sky Science · zh

基于超网络的高效映射：通过模型适配将深度学习应用部署到混合精度硬件

2026-03-27 · 返回目录

为何更聪明的 AI 芯片很重要

现代人工智能驱动着从语音助理到医学影像分析的各类应用，但运行这些系统的计算平台正面临严峻压力。随着模型规模不断增长，它们在进行预测时需要更多的能量、更多的内存和更长的时间。本文探讨了一种新的方法，将 AI 软件与专用硬件更好地配对，使系统在保持精度的同时运行得更快、能耗更低。研究重点是将两类计算模式——模拟与数字——结合起来，并自动决定神经网络的哪些部分应使用哪种模式。

一台机器的两类“智能”

如今的 AI 芯片开始将传统的数字单元与模拟“内存内”引擎混合在一起，后者能在存储内部执行大块的算术运算。模拟单元速度极快且能效高，但同时也存在噪声且精度较低。相比之下，数字单元较慢且能效较差，但高度可靠。一个关键挑战是逐层决定神经网络应在哪些层使用模拟运算、在哪些层保留为数字运算，以保证整个系统表现良好。如果太多层采用模拟，精度会下降；若过多层保持数字化，能耗与速度上的收益则会大幅丧失。

Figure 1. AI 任务如何在模拟与数字硬件之间流动，从而提供快速、准确且节能的结果。

众多可能网络的一张地图

作者提出了混合精度超网络（Mixed‑Precision Supernetwork），这是一个大范围的模型，能够同时包含同一神经网络的多种可能版本。在每一层，超网络提供若干选项：不同位宽的数字版本、包含真实噪声的模拟版本，甚至可以选择跳过或重构层。在训练过程中，系统不仅学习网络的常规模型参数，还学习每种硬件选择对每层的优劣。一种特殊的排序方法随后在这些选项空间中搜索，找出具体的逐层“映射”，以同时平衡三个目标：任务精度、在模拟硬件上完成的工作量，以及所需的数字存储量。

让模型适配硬件

除了在线性选择模拟或数字外，该框架还可以温和地重塑网络，使其更自然地适配硬件。例如，它可以扩展变压器或卷积模块的某些内部层，使它们更充分地填满模拟单元的行列，利用更多可用的行与列而不增加延迟。这些面向硬件的适配会增加部分层的参数量，但由于它们被放置在模拟硬件高效的位置，整体能耗仍然很低。系统分阶段训练：先公平对待所有路径，然后逐步引入真实量化与模拟噪声，最后微调选择以保持精度与效率之间的最佳权衡。

Figure 2. 如何为每个神经网络层分配模拟或数字硬件，以在准确性、能耗和速度之间取得平衡。

更快的搜索与更佳的权衡

团队在若干标准任务上测试了该方法：CIFAR‑10 的图像分类、COCO 数据集上的目标分割以及 SQuAD 的问答。在这些测试中，他们的方法（称为 MPS 以及更先进的 MPAAS）始终找到在保持甚至略微提升精度的同时使用大量模拟操作的映射。平均而言，他们发现映射的速度比竞争方法快约 2.2 倍，并且与全模拟设计相比，任务表现平均提升约 3.4%。硬件模拟显示，所得设计在延迟上最多可降低约 2.4 倍、每次预测的能耗可减少约 2.6 倍，相较于全精度数字系统有显著优势。

对未来 AI 硬件的意义

对非专业读者而言，核心信息是：AI 模型在芯片上的布局几乎与模型本身同样重要。该项工作表明，一个自动的、硬件感知的“规划器”可以决定网络的哪些部分应运行在快速但有噪声的模拟硬件上，哪些应保留在精确的数字单元上，并在必要时通过重塑模型使其更贴合芯片。其结果是能够在保持相近精度的前提下，大幅降低能耗与时间开销，这是将强大模型从大型数据中心扩展到手机、汽车和边缘服务器等设备的关键一步。

引用: Benmeziane, H., Lammie, C., Boybat, I. et al. Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation. Nat Commun 17, 4501 (2026). https://doi.org/10.1038/s41467-026-71071-1

关键词: 混合精度硬件, 模拟内存计算, 神经网络映射, 硬件感知 AI, 能效推理