Clear Sky Science · nl

Hiërarchisch multi-agent reinforcement learning voor retrieval-augmented industriële documentvraagbeantwoording

· Terug naar het overzicht

Slimmere hulp bij complexe handleidingen

Moderne sectoren zoals elektriciteitsnetten en productie vertrouwen op dikke handleidingen, schakelschema’s en parametertabellen om apparatuur veilig te laten werken. Wanneer operators snel een vraag hebben — bijvoorbeeld waarom een alarm afgaat of welke schakelaar ze moeten omzetten — staat het antwoord vaak ergens verborgen in deze lange, gemengde documenten. Dit artikel introduceert een nieuw AI-systeem, MARL‑RAGDoc, dat is ontworpen om door zulke verwarde informatie te graven en nauwkeurige, goed onderbouwde antwoorden te geven in plaats van gissingen.

Figure 1
Figure 1.

Waarom gewone AI verdwaalt in echte handleidingen

De meeste huidige vraag‑antwoordsystemen werken goed wanneer alle informatie platte tekst is, zoals een online artikel. Industriële documenten zijn heel anders: ze mengen tekst, diagrammen, stroomdiagrammen en tabellen die zich over tientallen pagina’s uitstrekken. Verschillende vragen leunen op verschillende onderdelen — afbeeldingen zijn belangrijk voor bedrading, terwijl tabellen van belang zijn voor waardes of instellingen. Bestaande systemen behandelen meestal alle soorten inhoud hetzelfde, halen een vast aantal fragmenten op en genereren vervolgens een antwoord. Omdat ze niet kunnen variëren hoeveel vertrouwen ze aan elk type inhoud geven of hoe diep ze moeten zoeken afhankelijk van de vraag, missen ze vaak cruciaal bewijs, halen veel irrelevante informatie binnen en ‘hallucineren’ soms antwoorden die niet door de documenten worden ondersteund.

Een team van gespecialiseerde AI-hulpjes

MARL‑RAGDoc pakt dit probleem aan door documentzoektocht te zien als een coöperatief spel dat wordt gespeeld door meerdere AI “agenten”, elk met een andere rol. Eerst splitst het systeem een documentcollectie in veel kleine stukjes: tekstblokken, afbeeldingen en tabellen, elk met een label voor hun positie op de pagina en hun functie (zoals titel of bijschrift). Deze stukjes worden in een gedeelde wiskundige ruimte geplaatst zodat gerelateerde items uit verschillende formaten dicht bij elkaar komen te liggen. Voor een gegeven vraag maakt het systeem vervolgens shortlists van veelbelovende kandidaten binnen elk formaat — zoals de top tekstblokken, afbeeldingen en tabellen die het antwoord zouden kunnen bevatten.

Een coördinator die leert waar te zoeken

In het hart van MARL‑RAGDoc staat een coördinatoragent op hoog niveau die beslist hoeveel aandacht elk type inhoud krijgt en hoeveel zoekstappen nodig zijn. Onder deze coördinator werken drie gespecialiseerde agenten, elk voor tekst, afbeeldingen en tabellen. Deze agenten kiezen welke kandidaten ze behouden, wanneer ze naar aangrenzend materiaal kijken (zoals de rest van een tabelrij of het bijschrift onder een afbeelding) en wanneer ze stoppen met zoeken. Cruciaal is dat al deze beslissingen geleerd worden via reinforcement learning: de agenten ontvangen beloningen op basis van zowel hoe goed ze relevant bewijs terugvonden als hoe goed het uiteindelijke antwoord is. In de loop van de tijd leert het systeem strategieën zoals meer vertrouwen op tabellen voor numerieke vragen of meer op diagrammen voor ruimtelijke indelingsvragen.

Figure 2
Figure 2.

Van bewijs naar betrouwbare antwoorden

Wanneer de agenten hun beste bewijs hebben verzameld, neemt een groot taalmodel de vraag samen met de geselecteerde tekst, afbeeldingen en tabellen in zich op, gewogen naar hun belang. Het genereert vervolgens een antwoord en een kwaliteitsscore die aangeeft hoe volledig en goed onderbouwd dat antwoord lijkt te zijn. Als de score laag is, kan het systeem een nieuwe zoekronde starten en de agenten vragen aanvullend materiaal te verzamelen voordat het opnieuw probeert. Deze “retrieve–reason–reflect” lus stelt MARL‑RAGDoc in staat zichzelf te corrigeren wanneer de eerste poging onzeker is, waardoor het risico dat het gaten opvult met niet-ondersteunde gissingen afneemt. Dezelfde lus voedt ook de training terug en leert de agenten welke retrievalpatronen doorgaans tot sterke antwoorden leiden.

Het systeem op de proef gesteld

De onderzoekers evalueerden MARL‑RAGDoc op drie veeleisende verzamelingen multimodale documenten, waaronder twee openbare benchmarks en een nieuwe dataset uit de energiesector die zij uit echte handleidingen, richtlijnen en technische rapporten hebben samengesteld. Over alle drie behaalde het nieuwe systeem betere resultaten dan een reeks sterke concurrenten, van krachtige algemene multimodale modellen tot gespecialiseerde documentbegrip- en retrieval-augmented systemen. Het realiseerde verbeteringen van ongeveer 5–9 procentpunt in de algehele nauwkeurigheid en vergelijkbare winst in strengere maatstaven die exacte overeenkomsten en vroege rangschikking van correcte antwoorden vereisen. De voordelen waren vooral duidelijk bij zeer lange, meerpagina‑documenten en vragen die informatie uit tekst, tabellen en diagrammen moesten combineren.

Wat dit betekent voor praktijkgebruikers

In gewone bewoordingen is MARL‑RAGDoc als een team van getrainde assistenten die weten hoe ze dikke mappen met technische documentatie kunnen doorzoeken, voor elke vraag de juiste diagrammen of tabellen raadplegen en hun werk dubbel controleren voordat ze antwoorden. Door dynamisch te bepalen welke delen van een document het belangrijkst zijn en te leren van feedback, biedt het meer nauwkeurige en beter onderbouwde antwoorden dan one-size-fits-all benaderingen. Hoewel de studie zich richt op documenten van energiesystemen, kan hetzelfde raamwerk werknemers in veel sectoren helpen — van fabrieksmonteurs tot ziekenhuispersoneel — om snel en veilig door complexe handleidingen te navigeren.

Bronvermelding: Qian, Y., Han, B., Yuan, Y. et al. Hierarchical multi-agent reinforcement learning for retrieval-augmented industrial document question answering. Sci Rep 16, 13512 (2026). https://doi.org/10.1038/s41598-026-41684-z

Trefwoorden: industriële document QA, multimodale retrieval, reinforcement learning-agenten, retrieval-augmented generatie, technische handleidingen