Clear Sky Science · ru
Иерархическое многопомощное обучение с подкреплением для вопросно‑ответных систем по промышленным документам с расширенным поиском
Умнее помощь из сложных руководств
Современные отрасли, такие как электросети и производство, опираются на толстые руководства, схемы и таблицы параметров, чтобы оборудование работало безопасно. Когда у операторов возникают срочные вопросы — например, почему сработала авария или какой переключатель нужно нажать — ответ часто спрятан где‑то в этих длинных документах смешанного формата. В статье предлагается новая ИИ‑система MARL‑RAGDoc, которая умеет «прорываться» через такой запутанный материал и выдавать точные, обоснованные ответы вместо догадок.

Почему обычные ИИ теряются в реальных руководствах
Большинство существующих систем вопросов‑ответов хорошо работают, когда вся информация — простой текст, как в онлайн‑статье. Промышленные документы совершенно другие: они смешивают текст, диаграммы, блок‑схемы и таблицы, разбросанные по десяткам страниц. Для разных вопросов важны разные части — для проводки имеют значение изображения, для характеристик или настроек — таблицы. Существующие системы обычно относятся ко всем типам контента одинаково, извлекают фиксированное число фрагментов и затем генерируют ответ. Поскольку они не умеют по‑вопросному менять степень доверия к каждому типу контента или глубину поиска, они часто упускают ключевые доказательства, извлекают много несущественного материала и иногда «галлюцинируют» ответы, не подтверждённые документами.
Команда специализированных ИИ‑помощников
MARL‑RAGDoc решает эту проблему, рассматривая поиск по документам как кооперативную игру нескольких ИИ‑«агентов», у каждого из которых своя роль. Сначала система разбивает коллекцию документов на множество мелких фрагментов: блоки текста, изображения и таблицы, каждому из которых присваиваются позиция на странице и роль (например, заголовок или подпись). Эти фрагменты отображаются в общее математическое пространство так, чтобы связанные элементы разных форматов оказывались рядом. Затем для данного вопроса система формирует шортлисты перспективных кандидатов в каждом формате — например, лучшие текстовые блоки, изображения и таблицы, которые могут содержать ответ.
Координатор, который учится, где искать
В основе MARL‑RAGDoc лежит высокоуровневый агент‑координатор, который решает, сколько внимания уделять каждому типу контента и сколько шагов поиска требуется. Под ним работают три специализированных агента — для текста, изображений и таблиц. Эти агенты выбирают, какие кандидаты оставить, когда смотреть соседний материал (например, остальные ячейки строки таблицы или подпись под изображением) и когда прекращать поиск. Важно, что все эти решения обучаются методом обучения с подкреплением: агенты получают награды, основанные как на качестве найденных доказательств, так и на качестве итогового ответа. Со временем система вырабатывает стратегии, например больше полагаться на таблицы при числовых запросах или на схемы при вопросах о пространственном расположении.

От доказательств к надёжным ответам
Когда агенты собрали лучшие доказательства, большая языковая модель получает вопрос вместе с отобранными текстами, изображениями и таблицами, взвешенными по их важности. Затем она формирует ответ и оценивает его качество, отражая полноту и степень подтверждения. Если оценка низкая, система может инициировать ещё один цикл поиска, попросив агентов собрать дополнительные материалы перед новой попыткой. Этот цикл «извлечь — рассуждать — переоценить» позволяет MARL‑RAGDoc исправлять себя, когда первая попытка недостаточно уверена, снижая риск заполнения пробелов неподтверждёнными догадками. Тот же цикл также используется в обучении, показывая агентам, какие стратегии поиска чаще приводят к сильным ответам.
Проверка системы в деле
Авторы оценили MARL‑RAGDoc на трёх сложных наборах мультимодальных документов, включая два публичных бенчмарка и новый датасет для энергетической отрасли, составленный из реальных руководств, инструкций и технических отчётов. По всем трём наборам новая система превзошла ряд сильных конкурентов — от универсальных мощных мультимодальных моделей до специализированных систем понимания документов и систем с расширенным поиском. Она обеспечила улучшение примерно на 5–9 процентных пунктов в общей точности и сопоставимые приросты по более строгим метрикам, требующим точного совпадения и ранжирования правильных ответов в начале списка. Преимущества были особенно заметны для очень длинных многстраничных документов и вопросов, требующих комбинирования информации из текста, таблиц и диаграмм.
Что это значит для специалистов в реальном мире
Проще говоря, MARL‑RAGDoc — это как команда обученных помощников, которые умеют пролистывать огромные тома технической документации, обращаться к нужным диаграммам или таблицам для каждого вопроса и перепроверять результаты перед ответом. Динамически решая, какие части документа важны в каждом случае, и обучаясь на обратной связи, система даёт более точные и лучше обоснованные ответы, чем универсальные подходы. Хотя исследование сосредоточено на документах энергетических систем, та же методика может помочь работникам многих отраслей — от заводских техников до медицинского персонала — быстро и безопасно ориентироваться в сложных руководствах.
Цитирование: Qian, Y., Han, B., Yuan, Y. et al. Hierarchical multi-agent reinforcement learning for retrieval-augmented industrial document question answering. Sci Rep 16, 13512 (2026). https://doi.org/10.1038/s41598-026-41684-z
Ключевые слова: вопросно‑ответные системы для промышленных документов, мультимодальный поиск, агенты обучения с подкреплением, генерация с расширенным поиском, технические руководства