Clear Sky Science · zh

面向实时边缘智能的幻觉感知学习与延迟优化变换器（HALL-OPT）

2026-03-05 · 返回目录

为什么更快且更可信的人工智能很重要

从工厂传感器和医院监测器到汽车和家用设备，日常设备正在悄然变得更聪明。许多系统依赖语言模型——与现代聊天机器人相同类型的人工智能——来读取指令、回答问题或总结报告。但有两个问题阻碍了它们的应用：这些模型运行缓慢且耗电，而且有时会“幻觉”出看似可信但错误的信息。本文提出了 HALL-OPT，一种对基于变换器的语言模型的重新设计，旨在使它们更快、更可靠，从而能安全地在小型、低功耗的边缘设备上运行，而不是依赖远端数据中心。

边缘智能设备面临的挑战

大多数高性能语言模型部署在云端，可以使用大量计算资源。这使得它们难以在需要快速决策且网络连接不稳定或成本高昂的场景中使用，例如自动驾驶车辆、工业机器人或床边医疗设备。当这些系统将数据发送到云端并等待回复时，哪怕几百毫秒的延迟也可能无法接受。与此同时，能装入边缘设备的轻量模型通常响应更快，但更有可能编造事实或误解信息。研究表明，这造成了一种权衡：低幻觉率通常伴随高延迟，而低延迟往往意味着更多幻觉，留下了实时且可信的边缘智能的空白。

统一设计，而非各自为政的修补

现有研究通常将可靠性和效率视为两个独立目标。有些方法侧重通过将答案与外部数据库核对或多次运行模型来捕捉幻觉，但这会增加额外的时间和能耗。另一些方法通过剪枝、量化或知识蒸馏来缩小模型，使其更快，但有时会降低准确性和可信度。HALL-OPT 采取了不同路径：它将幻觉感知直接织入模型内部，并利用相同信息决定哪些计算应执行、哪些可以跳过。它不是在外部附加额外检查或盲目裁剪网络，而是在单一框架内协调可靠性与速度，针对边缘硬件进行定制。

系统如何过滤高风险内容

HALL-OPT 的核心是一个幻觉感知注意力模块，用以观察模型如何在词语间分配注意力以及其预测的置信度。当注意力分散、置信度低或某个标记的含义与上下文冲突时，该标记会被赋予更高的“风险”得分。一个双流检测器随后将这些高风险片段标记为潜在的幻觉。模型使用这些信号驱动动态剪枝阶段：既低价值又高风险的标记被移除，而重要且可信的标记被保留。这减少了模型在每层需要处理的元素数量，削减了注意力机制的二次方计算开销，同时不丢失文本的核心含义。

将大模型打包进小而高效的模型

为将强大的能力装入更小的模型，HALL-OPT 采用知识蒸馏，由大型“教师”模型训练紧凑的“学生”模型。与标准蒸馏不同，学生不仅被教导去匹配教师的答案，还要模仿教师识别输出何时可能出错的能力。额外的训练促使学生避免过度自信、易于幻觉的预测。最后，一个边缘优化层为低精度运算做准备，将权重转换为 8 位值并重构计算以匹配实际的边缘设备，例如 NVIDIA Jetson 板和 Google 的 Coral TPU。该组合在明显降低内存占用、能耗和响应时间的同时，保留了大部分原有准确性。

对速度、能耗和安全性的现实影响

在两个具有挑战性的基准测试上——一个是包含设陷的不可答问题的问答测试，另一个是新闻摘要——测试表明 HALL-OPT 以约 94% 的准确率检测幻觉，并使任务表现接近标准的 BERT 模型。同时，它将推理延迟大约削减三分之二，并在现实工作负载平均下将能耗降低约 40% 或更多。在边缘设备上，它经常在 50 毫秒内响应并显著减少内存使用。跨多种平台和工业场景（从智能工厂到医疗监护）的压力测试证实该系统保持可预测的时序和良好的“每瓦推理数”表现，使其适合连续的实时使用。

这对日常人工智能意味着什么

对于非专业读者，核心信息是我们不必在小型设备上在快速人工智能与可信人工智能之间二选一。通过教会模型识别自身的薄弱环节，并让这种意识指导其计算量，HALL-OPT 提供了既快速又不易捏造的回答。这使其成为未来边缘应用的有前景的支撑技术，尤其是在错误回答或反应迟缓可能带来严重后果的场景中，例如辅助驾驶、控制工业设备或标记患者情况的关键变化。

引用: Algawiaz, D. Hallucination-aware learning and latency optimization transformer (HALL-OPT) for real-time edge intelligence. Sci Rep 16, 12245 (2026). https://doi.org/10.1038/s41598-026-42981-3

关键词: 边缘人工智能, 幻觉检测, 变换器模型, 实时推理, 能效计算