Clear Sky Science · zh
LIMO:面向边缘计算的低功耗内存退火器与矩阵乘法原语
更智能的路径与更精简的芯片
每天,企业都要解决诸如为访问数千个停靠点的送货卡车寻找最短路线,或让电池供电的相机快速扫描图像以检测人脸之类的难题。这些问题给现有计算机带来很大压力,因为它们在内存与处理器之间来回传输大量数据。本文提出了 LIMO,这是一种新型的低功耗计算模块,可以在数据就地保持的同时解决此类复杂的路径规划任务并运行人工智能(AI)模型,从而使未来的边缘设备更快且更节能。
为什么找到好路线如此困难
本文的核心是著名的旅行商问题:在许多城市中,找到一条最短回路,使每个城市恰好访问一次并回到出发点。对于小规模地图,精确的数学工具可以找到最优解。但当城市数量增长到数万时,可行路径的数量呈爆炸式增长,即便是强大的计算机也会陷入困顿。诸如模拟退火的启发式方法可以在这个巨大的解空间中寻找质量较好的(但非最优)路线,通过有时接受更差的中间解来避免陷入局部最优。然而,传统方法在超大规模问题上仍然以低效的方式探索搜索空间,并在内存与处理器之间来回移动数据,遭遇所谓的“内存墙”。

一种新的可能性搜索方式
作者提出了一种名为“显著性加权退火插入”(Significance Weighted Annealed Insertion,SWAI)的新算法,重塑了候选路径的探索方式。与不断交换城市对的做法不同——后者随城市数量增长而扩展得很差——SWAI 逐步构建路径,每次插入一个新城市。在每一步,它有时选择最近的下一个城市(贪心选择),有时依赖受控的随机性,这种随机性偏好较短的候选边但并不完全排除较长的边。随着搜索推进,这种偏好会随时间调整:起初更具冒险性,随后变得更保守。由于每一步考察的选项数量仅随城市数线性增长,该算法能够比传统模拟退火更有效地探索长距离改进。
在内存中计算并内置随机性
LIMO 通过电路与搜索方法的紧耦合将该算法变为硬件。其核心是一个经过修改的存储阵列,既存储当前路径也存储城市间距离,并在无需频繁与独立处理器通信的情况下执行关键更新步骤。算法所需的随机选择来自微小的磁性器件——自旋转矩磁隧道结(spin‑transfer‑torque magnetic tunnel junctions,STT‑MTJ),这些器件在被适当电流驱动时会以不可预测的方式切换状态。设计者把这种物理随机性转换为数字比特,并用简单的比较电路实现算法中的概率决策。由于大多数操作保持数字化并直接在内存中发生,系统避免了体积大且耗能的模数/数模转换器和脆弱的模拟电路,从而节省了能量和芯片面积。
把大问题拆成小块
为了解决多达 85,900 个城市的超大规模路径规划问题,系统采用了分而治之的策略。一种轻量的几何方法将附近城市分组为簇,直到每个簇足够小以适配单个 LIMO 模块。硬件并行求解许多这样的子路径,然后将它们缝合回完整的路径。额外的细化步骤进一步打磨全局路径:由硬件对路径片段重新优化,并在常规处理器上运行经典的“2‑opt”清理以去除剩余交叉路径。在标准基准测试中,这种组合方法比先前的专用退火机器产生了更高质量的路径,并且在最大规模问题上达到了约 5 倍的加速。

从复杂路径到高效 AI
LIMO 的用途不限于路径规划。同一存储阵列也可以作为神经网络的构建模块,执行向量‑矩阵乘法——图像与模式识别背后的核心操作。LIMO 不使用耗电且精密的转换器来读取模拟信号,而是依赖非常简单的感测电路,仅捕获累积信号的符号(正负),并通过对硬件感知进行训练来补偿这种粗糙性。在图像分类和人脸检测任务上,这些网络在准确率上接近标准软件模型,同时在能耗和响应时间上优于传统的内存计算芯片。对日常用户而言,这意味着未来的相机、无人机和其他边缘设备有望在电池上更长时间地完成复杂规划任务并运行 AI 模型——这一切都归功于更智能的搜索和在数据驻留处直接计算。
引用: Holla, A., Chatterjee, S., Sen, S. et al. LIMO: Low-power in-memory-annealer and matrix-multiplication primitive for edge computing. npj Unconv. Comput. 3, 10 (2026). https://doi.org/10.1038/s44335-026-00054-8
关键词: 内存计算, 旅行商问题, 硬件退火, 低功耗人工智能, 边缘计算