Clear Sky Science · zh
基于超网络的高效映射:通过模型适配将深度学习应用部署到混合精度硬件
为何更聪明的 AI 芯片很重要
现代人工智能驱动着从语音助理到医学影像分析的各类应用,但运行这些系统的计算平台正面临严峻压力。随着模型规模不断增长,它们在进行预测时需要更多的能量、更多的内存和更长的时间。本文探讨了一种新的方法,将 AI 软件与专用硬件更好地配对,使系统在保持精度的同时运行得更快、能耗更低。研究重点是将两类计算模式——模拟与数字——结合起来,并自动决定神经网络的哪些部分应使用哪种模式。
一台机器的两类“智能”
如今的 AI 芯片开始将传统的数字单元与模拟“内存内”引擎混合在一起,后者能在存储内部执行大块的算术运算。模拟单元速度极快且能效高,但同时也存在噪声且精度较低。相比之下,数字单元较慢且能效较差,但高度可靠。一个关键挑战是逐层决定神经网络应在哪些层使用模拟运算、在哪些层保留为数字运算,以保证整个系统表现良好。如果太多层采用模拟,精度会下降;若过多层保持数字化,能耗与速度上的收益则会大幅丧失。

众多可能网络的一张地图
作者提出了混合精度超网络(Mixed‑Precision Supernetwork),这是一个大范围的模型,能够同时包含同一神经网络的多种可能版本。在每一层,超网络提供若干选项:不同位宽的数字版本、包含真实噪声的模拟版本,甚至可以选择跳过或重构层。在训练过程中,系统不仅学习网络的常规模型参数,还学习每种硬件选择对每层的优劣。一种特殊的排序方法随后在这些选项空间中搜索,找出具体的逐层“映射”,以同时平衡三个目标:任务精度、在模拟硬件上完成的工作量,以及所需的数字存储量。
让模型适配硬件
除了在线性选择模拟或数字外,该框架还可以温和地重塑网络,使其更自然地适配硬件。例如,它可以扩展变压器或卷积模块的某些内部层,使它们更充分地填满模拟单元的行列,利用更多可用的行与列而不增加延迟。这些面向硬件的适配会增加部分层的参数量,但由于它们被放置在模拟硬件高效的位置,整体能耗仍然很低。系统分阶段训练:先公平对待所有路径,然后逐步引入真实量化与模拟噪声,最后微调选择以保持精度与效率之间的最佳权衡。

更快的搜索与更佳的权衡
团队在若干标准任务上测试了该方法:CIFAR‑10 的图像分类、COCO 数据集上的目标分割以及 SQuAD 的问答。在这些测试中,他们的方法(称为 MPS 以及更先进的 MPAAS)始终找到在保持甚至略微提升精度的同时使用大量模拟操作的映射。平均而言,他们发现映射的速度比竞争方法快约 2.2 倍,并且与全模拟设计相比,任务表现平均提升约 3.4%。硬件模拟显示,所得设计在延迟上最多可降低约 2.4 倍、每次预测的能耗可减少约 2.6 倍,相较于全精度数字系统有显著优势。
对未来 AI 硬件的意义
对非专业读者而言,核心信息是:AI 模型在芯片上的布局几乎与模型本身同样重要。该项工作表明,一个自动的、硬件感知的“规划器”可以决定网络的哪些部分应运行在快速但有噪声的模拟硬件上,哪些应保留在精确的数字单元上,并在必要时通过重塑模型使其更贴合芯片。其结果是能够在保持相近精度的前提下,大幅降低能耗与时间开销,这是将强大模型从大型数据中心扩展到手机、汽车和边缘服务器等设备的关键一步。
引用: Benmeziane, H., Lammie, C., Boybat, I. et al. Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation. Nat Commun 17, 4501 (2026). https://doi.org/10.1038/s41467-026-71071-1
关键词: 混合精度硬件, 模拟内存计算, 神经网络映射, 硬件感知 AI, 能效推理