Clear Sky Science · zh

张量语言模型使生成式调度成为可能，从而实现高效张量编译

2026-05-19 · 返回目录

为什么更快的 AI 工具很重要

随着人工智能能力的增强，训练和运行大型神经网络需要大量计算时间和能量。在背后，称为编译器的专用程序把高级的 AI 模型转换为供 CPU、GPU 等芯片执行的低级指令。本文介绍了一种新方法，借用现代语言模型的思想，使这种转换快得多，且效率几乎可与当今最佳的手工调优方法相媲美。

Figure 1. 语言模型从张量程序中学习，快速将 AI 模型映射到硬件，从而加速编译。

AI 编译器的幕后工作

深度学习模型依赖许多重复的数据操作，例如对大矩阵相乘或在图像上滑动滤波器。这些操作以称为张量程序的小型低级程序实现。为了在不同硬件上高效运行，每个张量程序必须被精心安排：循环需要切分成分块，工作需要在内核间分配，数据在内存中的布局要便于快速访问。现有的自动工具要么在海量可能性中搜索，这可能耗时数小时或数天，要么依赖固定规则，虽然编译速度快但可能牺牲大量性能。

将调度问题转为语言任务

作者提出了一个名为张量语言模型（TLM）的框架，将安排这些张量程序的问题视作写句子。他们设计了一种紧凑的“张量语言”，每个标记编码关于操作、硬件和调度选择的信息。一个类 GPT-2 的模型在数百万条这样的张量句子上训练，学习将特定算子与硬件设置映射到高效调度的模式。TLM 不再在编译时穷尽多种选项，而是像预测句子中的下一个词一样，单次生成一个良好的调度。

新系统的构成

该框架由两个主要部分组成。空间构建器（Space Builder）检查 AI 模型，将其拆分为较小的子图，并为每个子图构建完整的合法调度选项空间，同时不丢弃有希望的选择。然后将这个空间编码为张量句子。生成器（Generator）由训练好的 TLM 提供动力，读取这些句子及硬件提示并输出完整的调度决策序列。由于张量语言经过精心设计，每个生成的序列都对应一个有效的低级程序，可由现有的编译后端转换为可执行代码。

实验结果说明了什么

研究人员在来自流行视觉与语言模型（包括 ResNet-50、MobileNetV2、EfficientNet、BERT、GPT-2 和 LLAMA-7B）的张量程序上训练了 TLM。随后，他们将其与以搜索为基础的领先编译器（如 Ansor 和 MetaSchedule）以及名为 Roller 的快速启发式系统进行了比较。在大量测试工作负载中，TLM 生成的程序运行时间与搜索型工具相当或略优，而编译速度最快可提高约 61 倍。与 Roller 相比，TLM 的编译时间相当或更短，但生成的模型运行速度最多可快约 1.5 倍。这些收益从小子图延展到端到端完整模型，并且 TLM 在多次运行中能产生确定性的结果。

Figure 2. 训练好的模型从众多选项中挑选高效的张量调度，生成运行迅速的代码而无需缓慢搜索。

局限与未来方向

TLM 的收益取决于其训练数据对未来工作负载和硬件的覆盖程度。如果出现训练集中未包含的新型算子或芯片，生成的调度在加入更多示例并微调模型之前可能效率较低。训练 TLM 本身也需要大量资源，因为它需要数百万个示例张量程序。作者建议将该方法扩展到更大的语言模型、更广的算子集合和更多硬件平台，并可能采用轻量级的适配方法。

这对日常 AI 使用意味着什么

从实践角度看，这项工作表明快速编译与快速执行之间的昂贵权衡并非一成不变。通过从以往的优化经验中学习，基于语言模型的编译器可以几乎即时生成高效的低级代码。对于经常部署或更新大型 AI 模型的公司和研究人员而言，这样的系统可以显著缩短周转时间，同时将性能保持在当前工具可达到的最佳水平附近。

引用: Mehmood, S., Arooj, A., Al-Shamayleh, A.S. et al. Tensor language model enables generative scheduling for efficient tensor compilation. Sci Rep 16, 15379 (2026). https://doi.org/10.1038/s41598-026-41392-8

关键词: 张量编译, 深度学习编译器, 语言模型, GPU 优化, 模型调度