Clear Sky Science · de

Hierarchisches Multi‑Agenten‑Reinforcement‑Learning für retrieval‑unterstützte industrielle Dokumenten‑Fragebeantwortung

· Zurück zur Übersicht

Intelligentere Hilfe bei komplexen Handbüchern

Moderne Branchen wie Stromnetze und Fertigung sind auf umfangreiche Handbücher, Schaltpläne und Parametertabellen angewiesen, damit Anlagen sicher betrieben werden können. Wenn Betreiber dringende Fragen haben – etwa warum ein Alarm ausgelöst wurde oder welchen Schalter sie umlegen müssen – steckt die Antwort oft irgendwo in diesen langen, gemischten Dokumenten. Dieses Paper stellt ein neues KI‑System vor, MARL‑RAGDoc, das darauf ausgelegt ist, solche verästelten Informationen zu durchforsten und präzise, gut abgesicherte Antworten zu liefern statt Vermutungen.

Figure 1
Figure 1.

Warum herkömmliche KI in echten Handbüchern scheitert

Die meisten aktuellen Frage‑Antwort‑Systeme funktionieren gut, wenn alle Informationen reiner Fließtext sind, etwa ein Online‑Artikel. Industrielle Dokumente sind jedoch anders: Sie mischen Text, Diagramme, Flussdiagramme und Tabellen über Dutzende Seiten. Verschiedene Fragen stützen sich auf unterschiedliche Teile – Bilder sind etwa bei Verkabelungsfragen wichtig, Tabellen bei Nennwerten oder Einstellungen. Bestehende Systeme behandeln meist alle Inhaltsarten gleich, ziehen eine feste Anzahl von Ausschnitten heran und generieren dann eine Antwort. Da sie nicht adaptiv entscheiden können, wie sehr sie jeder Inhaltsart vertrauen oder wie tief sie je nach Frage suchen müssen, übersehen sie oft entscheidende Belege, rufen viele irrelevante Materialien ab und „halluzinieren“ mitunter Antworten, die nicht durch die Dokumente gedeckt sind.

Ein Team spezialisierter KI‑Helfer

MARL‑RAGDoc begegnet diesem Problem, indem die Suche in Dokumenten als kooperatives Spiel mehrerer KI‑„Agenten“ aufgefasst wird, die jeweils eine unterschiedliche Rolle haben. Zunächst zerlegt das System eine Sammlung von Dokumenten in viele kleine Einheiten: Textblöcke, Bilder und Tabellen, die jeweils mit ihrer Position auf der Seite und ihrer Funktion (etwa Titel oder Bildunterschrift) gekennzeichnet werden. Diese Einheiten werden in einen gemeinsamen mathematischen Raum abgebildet, sodass verwandte Elemente aus verschiedenen Formaten nahe beieinander liegen. Für eine gestellte Frage erstellt das System dann Kurzlisten vielversprechender Kandidaten in jedem Format – etwa die besten Textblöcke, Bilder und Tabellen, die die Antwort enthalten könnten.

Ein Koordinator, der lernt, wo er suchen muss

Im Kern von MARL‑RAGDoc steht ein hochrangiger Koordinator‑Agent, der entscheidet, wie viel Aufmerksamkeit jeder Inhaltsart zukommt und wie viele Suchschritte nötig sind. Unter diesem Koordinator arbeiten drei spezialisierte Agenten, je einer für Text, Bilder und Tabellen. Diese Agenten wählen aus, welche Kandidaten behalten werden, wann benachbartes Material betrachtet werden soll (etwa die restliche Tabellenzeile oder die Bildunterschrift) und wann die Suche gestoppt wird. Entscheidend ist, dass all diese Entscheidungen durch Reinforcement Learning erlernt werden: Die Agenten erhalten Belohnungen basierend darauf, wie gut sie relevantes Beweismaterial gefunden haben und wie gut die finale Antwort ist. Im Laufe der Zeit erlernt das System Strategien wie stärkere Orientierung an Tabellen bei numerischen Anfragen oder an Diagrammen bei Fragen zur räumlichen Anordnung.

Figure 2
Figure 2.

Von Belegen zu verlässlichen Antworten

Sobald die Agenten ihre besten Belege zusammengestellt haben, nimmt ein großes Sprachmodell die Frage zusammen mit den ausgewählten Texten, Bildern und Tabellen auf, gewichtet nach ihrer Bedeutung. Es erzeugt dann eine Antwort und eine Qualitätsbewertung, die widerspiegelt, wie vollständig und gut gestützt diese Antwort erscheint. Ist die Bewertung niedrig, kann das System eine weitere Abrufrunde auslösen und die Agenten bitten, ergänzendes Material zu sammeln, bevor ein neuer Versuch unternommen wird. Diese „abrufen–schließen–reflektieren“‑Schleife erlaubt es MARL‑RAGDoc, sich zu korrigieren, wenn der erste Versuch unsicher ist, und verringert das Risiko, Lücken mit ungestützten Vermutungen zu füllen. Dieselbe Schleife fließt auch in das Training zurück und lehrt die Agenten, welche Abrufmuster tendenziell zu starken Antworten führen.

Erprobung des Systems

Die Forschenden evaluierten MARL‑RAGDoc auf drei anspruchsvollen Sammlungen multimodaler Dokumente, darunter zwei öffentliche Benchmarks und einen neuen Datensatz aus der Energiebranche, den sie aus realen Handbüchern, Richtlinien und technischen Berichten zusammengestellt haben. Über alle drei Sammlungen hinweg übertraf das neue System eine Reihe starker Konkurrenten – von leistungsfähigen, allgemein einsetzbaren multimodalen Modellen bis hin zu spezialisierten Dokumenten‑Verständnis‑ und retrieval‑unterstützten Systemen. Es erzielte Verbesserungen von etwa 5–9 Prozentpunkten bei der Gesamtgenauigkeit sowie vergleichbare Zuwächse bei strengeren Metriken, die exakte Übereinstimmungen und frühe Platzierung korrekter Antworten erfordern. Der Nutzen war besonders deutlich bei sehr langen, mehrseitigen Dokumenten und Fragen, die die Kombination von Informationen aus Text, Tabellen und Diagrammen erforderten.

Was das für Anwender in der Praxis bedeutet

Alltäglich gesprochen ist MARL‑RAGDoc wie ein Team von geschulten Assistenten, die wissen, wie man riesige Ordner mit technischem Material überfliegt, für jede Frage die passenden Diagramme oder Tabellen konsultiert und ihre Arbeit vor der Antwort noch einmal prüft. Indem es dynamisch entscheidet, welche Teile eines Dokuments am wichtigsten sind und aus Rückmeldungen lernt, liefert es genauere und besser begründete Antworten als Einheitslösungen. Obwohl die Studie sich auf Dokumente zu Stromsystemen konzentriert, könnte derselbe Rahmen Beschäftigten in vielen Bereichen helfen – von Fabriktechnikern bis zu Krankenhauspersonal –, komplexe Handbücher schnell und sicher zu nutzen.

Zitation: Qian, Y., Han, B., Yuan, Y. et al. Hierarchical multi-agent reinforcement learning for retrieval-augmented industrial document question answering. Sci Rep 16, 13512 (2026). https://doi.org/10.1038/s41598-026-41684-z

Schlüsselwörter: industrielle Dokumenten‑QA, multimodale Informationssuche, Reinforcement‑Learning‑Agenten, retrieval‑augmented generation, technische Handbücher