Clear Sky Science · zh

用于检索增强的工业文档问答的分层多智能体强化学习

2026-03-14 · 返回目录

从复杂手册中获得更智能的帮助

像电网和制造业这样的现代工业依赖厚重的手册、电路图和参数表来保证设备安全运行。当操作人员有紧急问题——例如为什么会响警报或该拨哪个开关——答案往往隐藏在这些冗长且混合格式的文档中。本文提出了一种新的人工智能系统，称为 MARL‑RAGDoc，旨在梳理这些错综复杂的信息并提供准确、有证据支持的答案，而不是猜测。

为什么普通 AI 会在真实手册中迷失

大多数现有的问答系统在所有信息都是纯文本（比如在线文章）时表现良好。工业文档则截然不同：它们将文本、图表、流程图和表格混排，跨越数十页。不同问题依赖不同部分——接线问题可能要看图片，而额定值或设定则要看表格。现有系统通常把所有内容类型一视同仁，检索固定数量的片段，然后生成答案。因为它们无法根据问题改变对各类内容的信任程度或搜索深度，常常错过关键证据，检索大量无关材料，有时还会“幻觉”出与文档不符的答案。

一支由专门化 AI 助手组成的团队

MARL‑RAGDoc 将文档检索视为由若干具有不同角色的 AI “智能体”合作完成的博弈，从而解决了这一问题。首先，系统将文档集合切分为许多小块：文本块、图像和表格，每块都标注在页上的位置及其角色（如标题或说明）。这些片段被映射到一个共享的数学空间，使来自不同格式但相关的项聚集在一起。然后，对于给定问题，系统在每种格式内构建候选短名单——比如可能包含答案的顶级文本块、图像和表格。

一个学习何处寻找的协调者

MARL‑RAGDoc 的核心是一个高层协调者智能体，它决定应给予每类内容多少关注以及需要多少轮搜索。在该协调者之下是三个专门化的智能体，分别负责文本、图像和表格。这些智能体选择保留哪些候选项、何时查看相邻材料（例如表格行的其余部分或图像下的说明），以及何时停止搜索。关键是，所有这些决策都是通过强化学习学到的：智能体根据它们检索到的相关证据质量和最终答案的好坏来获得奖励。随着时间推移，系统学会了一些策略，比如对数值型查询更依赖表格，或对空间布局问题更依赖图示。

从证据到可靠答案

一旦智能体汇集了最佳证据，大型语言模型便将问题与所选的文本、图像和表格一并输入，并按其重要性加权。然后模型生成答案以及一个质量评分，反映该答案看起来多完整、多有依据。如果评分低，系统可以触发另一次检索，要求智能体收集补充材料后再尝试。这种“检索—推理—反思”循环使 MARL‑RAGDoc 在首次尝试不确定时能够自我纠正，从而降低用无依据猜测填补空白的风险。相同的循环也反馈到训练中，教会智能体哪些检索模式更有可能产生高质量答案。

系统的测试表现

研究人员在三个具有挑战性的多模态文档集合上评估了 MARL‑RAGDoc，包括两个公开基准和一个他们从真实手册、指南及技术报告构建的新电力行业数据集。在这三者中，新系统均优于一系列强大的竞争方法，从通用的多模态模型到专门的文档理解和检索增强系统。整体准确率提高约 5–9 个百分点，在要求精确匹配和对正确答案早期排序的更严格度量上也取得了类似提升。对于非常长的多页文档以及需要结合文本、表格和图示信息的问题，这些收益尤为明显。

这对真实世界操作人员的意义

通俗来说，MARL‑RAGDoc 就像一支受过训练的助理团队，知道如何快速浏览大量技术资料、针对每个问题查阅合适的图示或表格，并在回答前反复核对。通过动态决定文档的关键部分并从反馈中学习，它比一刀切的方法提供更准确且论证更充分的答案。尽管这项研究聚焦于电力系统文档，但相同的框架也可帮助许多领域的工作人员——从工厂技术员到医院人员——快速且安全地查阅复杂手册。

引用: Qian, Y., Han, B., Yuan, Y. et al. Hierarchical multi-agent reinforcement learning for retrieval-augmented industrial document question answering. Sci Rep 16, 13512 (2026). https://doi.org/10.1038/s41598-026-41684-z

关键词: 工业文档问答, 多模态检索, 强化学习智能体, 检索增强生成, 技术手册