Clear Sky Science · pl
Hierarchiczne wieloagentowe uczenie ze wzmocnieniem do wspomaganego wyszukiwaniem odpowiadania na pytania w dokumentach przemysłowych
Inteligentniejsza pomoc przy złożonych instrukcjach
Współczesne gałęzie przemysłu, takie jak sieci energetyczne i produkcja, polegają na grubych podręcznikach, schematach obwodów i tabelach parametrów, aby utrzymać urządzenia w bezpiecznym działaniu. Gdy operatorzy mają pilne pytania — na przykład dlaczego włącza się alarm lub który przełącznik należy przestawić — odpowiedź często ukryta jest gdzieś w tych długich, mieszanych formatowo dokumentach. W artykule przedstawiono nowy system AI, nazwany MARL‑RAGDoc, zaprojektowany do przeszukiwania tak zawiłych zasobów informacji i dostarczania dokładnych, dobrze ugruntowanych odpowiedzi zamiast domysłów.

Dlaczego zwykłe systemy AI gubią się w realnych instrukcjach
Większość istniejących systemów odpowiadania na pytania działa dobrze, gdy wszystkie informacje są w postaci zwykłego tekstu, np. artykułu online. Dokumenty przemysłowe są zupełnie inne: łączą tekst, diagramy, schematy przepływu i tabele rozłożone na dziesiątkach stron. Różne pytania wymagają różnych fragmentów — rysunki mogą być istotne przy okablowaniu, a tabele przy parametrach lub ustawieniach. Obecne systemy zwykle traktują wszystkie typy treści tak samo, pobierają stałą liczbę fragmentów i dopiero na ich podstawie generują odpowiedź. Ponieważ nie potrafią dostosować poziomu zaufania do każdego formatu ani głębokości przeszukiwania zależnie od pytania, często pomijają kluczowe dowody, pobierają dużo nieistotnych materiałów i czasem „halucynują” odpowiedzi, które nie znajdują potwierdzenia w dokumentach.
Zespół wyspecjalizowanych pomocników AI
MARL‑RAGDoc rozwiązuje ten problem, traktując wyszukiwanie w dokumentach jako grę kooperacyjną rozgrywaną przez kilka agentów AI, z których każdy ma inną rolę. Najpierw system dzieli zbiór dokumentów na wiele małych kawałków: bloki tekstu, obrazy i tabele, każdy oznaczony pozycją na stronie i funkcją (np. tytuł czy podpis). Elementy te są odwzorowywane do wspólnej przestrzeni matematycznej tak, że powiązane obiekty z różnych formatów znajdują się blisko siebie. Następnie, dla zadanego pytania, system tworzy krótkie listy obiecujących kandydatów w każdym formacie — na przykład najlepsze bloki tekstu, obrazy i tabele, które mogą zawierać odpowiedź.
Koordynator, który uczy się, gdzie szukać
W centrum MARL‑RAGDoc stoi koordynator wysokiego poziomu, który decyduje, ile uwagi poświęcić każdym typom treści i ile kroków wyszukiwania jest potrzebnych. Pod nim działają trzy wyspecjalizowane agenty — po jednym dla tekstu, obrazów i tabel. Agenci wybierają, których kandydatów zachować, kiedy sprawdzić sąsiednie materiały (np. resztę wiersza w tabeli lub podpis pod obrazkiem) oraz kiedy przerwać poszukiwania. Co istotne, wszystkie te decyzje są uczone przez uczenie ze wzmocnieniem: agenci otrzymują nagrody oparte zarówno na tym, jak dobrze wyszukali istotne dowody, jak i na jakości ostatecznej odpowiedzi. Z czasem system uczy się strategii, takich jak większe poleganie na tabelach przy zapytaniach liczbowych lub na diagramach przy pytaniach o układ przestrzenny.

Od dowodów do wiarygodnych odpowiedzi
Gdy agenci zgromadzą najlepsze dowody, duży model językowy przyjmuje pytanie wraz z wybranym tekstem, obrazami i tabelami, ważonymi według ich znaczenia. Następnie generuje odpowiedź i ocenę jakości odzwierciedlającą, jak kompletna i dobrze poparta wydaje się ta odpowiedź. Jeśli ocena jest niska, system może uruchomić kolejną rundę wyszukiwania, prosząc agentów o zebranie materiałów uzupełniających przed ponowną próbą. Ta pętla „wyszukaj–wytłumacz–zweryfikuj” pozwala MARL‑RAGDoc poprawiać się, gdy pierwsza próba jest niepewna, zmniejszając ryzyko wypełniania luk nieuzasadnionymi domysłami. Ta sama pętla trafia też do procesu treningu, ucząc agentów, które wzorce wyszukiwania prowadzą zwykle do silnych odpowiedzi.
Testy systemu
Naukowcy przetestowali MARL‑RAGDoc na trzech wymagających zbiorach dokumentów multimodalnych, w tym na dwóch publicznych benchmarkach oraz nowym zestawie danych z branży energetycznej, który zbudowali z realnych podręczników, wytycznych i raportów technicznych. We wszystkich trzech przypadkach nowy system przewyższał szereg silnych konkurentów, od potężnych modeli multimodalnych ogólnego przeznaczenia po wyspecjalizowane systemy rozumienia dokumentów i systemy wspomagane wyszukiwaniem. Osiągnął poprawę rzędu 5–9 punktów procentowych w ogólnej dokładności oraz podobne zyski w surowszych miarach wymagających dokładnego dopasowania i wczesnego umieszczania poprawnych odpowiedzi wysoko w rankingu. Korzyści były szczególnie widoczne dla bardzo długich, wielostronicowych dokumentów i pytań wymagających łączenia informacji z tekstu, tabel i diagramów.
Co to oznacza dla operatorów w praktyce
Mówiąc prościej, MARL‑RAGDoc działa jak zespół wyszkolonych asystentów, którzy potrafią przeglądać ogromne segregatory materiałów technicznych, odwoływać się do odpowiednich diagramów lub tabel dla konkretnego pytania i dwukrotnie sprawdzać swoją pracę przed udzieleniem odpowiedzi. Dzięki dynamicznemu ustalaniu, które części dokumentu są najważniejsze, oraz uczeniu się na podstawie informacji zwrotnej, oferuje dokładniejsze i lepiej uzasadnione odpowiedzi niż podejścia „jeden rozmiar dla wszystkich”. Choć badanie koncentruje się na dokumentach systemów energetycznych, ten sam schemat może pomóc pracownikom w wielu dziedzinach — od techników fabrycznych po personel szpitalny — szybko i bezpiecznie poruszać się po złożonych instrukcjach.
Cytowanie: Qian, Y., Han, B., Yuan, Y. et al. Hierarchical multi-agent reinforcement learning for retrieval-augmented industrial document question answering. Sci Rep 16, 13512 (2026). https://doi.org/10.1038/s41598-026-41684-z
Słowa kluczowe: odpowiadanie na pytania w dokumentach przemysłowych, wyszukiwanie multimodalne, agenci uczący się ze wzmocnieniem, wspomagane wyszukiwanie i generowanie, instrukcje techniczne