Clear Sky Science · pl
Ocena dużych modeli językowych pod kątem rozumowania diagnostycznego w nieustrukturyzowanych opisach klinicznych w epilepsji
Dlaczego to ma znaczenie dla pacjentów i lekarzy
Kiedy ktoś doświadcza napadu, sposób jego przebiegu oraz odczucia mogą dostarczyć ważnych wskazówek na temat zachodzących zmian w mózgu. Lekarze wykorzystują te opisy, aby określić, gdzie w mózgu rozpoczynają się napady i które leczenie, w tym zabieg chirurgiczny, może być pomocne. W tym badaniu pytano, czy duże modele językowe, ten sam rodzaj sztucznej inteligencji, który stoi za chatbotami, potrafią wiarygodnie interpretować opisy napadów z rzeczywistej praktyki i wspierać tego rodzaju rozumowanie diagnostyczne.

Przekształcanie relacji o napadach w wskazówki dotyczące mózgu
Badacze koncentrują się na epilepsji, schorzeniu, w którym krótkie wybuchy nieprawidłowej aktywności mózgowej wywołują napady. W rutynowej opiece klinicznej lekarze uważnie wysłuchują pacjentów i świadków, notując cechy takie jak ruchy żucia, nietypowe odczucia czy gwałtowne miotanie kończynami. Te szczegóły często wskazują na określone obszary mózgu, na przykład płat skroniowy lub czołowy. Zespół oparł się na dużym publicznym zbiorze danych, w którym ponad 1200 opisów napadów zostało powiązanych z siedmioma szerokimi regionami mózgu na podstawie wyników operacji, po których pacjenci byli wolni od napadów — silny sygnał, że prawdziwe źródło napadów zostało usunięte.
Testowanie wielu modeli AI
Oceniono osiem różnych modeli językowych, w tym powszechnie używane systemy ogólnego przeznaczenia oraz dwa modele dostrojone na tekstach medycznych. Każdy model otrzymywał opis napadu i miał wskazać, jak prawdopodobne jest, że napad rozpoczął się w każdym z siedmiu regionów mózgu. Badacze analizowali nie tylko to, jak często trafna była pierwsza propozycja, ale też jak bardzo modele wydawały się pewne swoich odpowiedzi, jak dobrze ta pewność pokrywała się z rzeczywistością oraz jak sensowne były ich pisemne uzasadnienia. Wyniki porównano z prostą bazą odniesienia, która zawsze wybierała najczęściej występujący region mózgu, oraz z dwoma ludzkimi specjalistami w dziedzinie epilepsji, którzy ocenili podzbiór przypadków.

Jak sformułowanie promptu kształtuje zachowanie AI
Sposób sformułowania zadania dla modeli miał duże znaczenie. Gdy podawano jedynie podstawowe instrukcje, większość systemów radziła sobie tylko nieznacznie lepiej niż przypadek. Wyniki poprawiały się, gdy modele pokazywano kilka przykładów, proszono o myślenie krok po kroku lub udostępniano przykłady klinicznego rozumowania przygotowane przez ekspertów do naśladowania. Największe korzyści dawały prompti zachęcające do szczegółowego rozumowania oraz łączenie wielu niezależnych odpowiedzi w celu uzyskania stabilniejszej decyzji. W ramach tych bogatszych instrukcji najlepsze systemy zbliżały się dokładnością do klinicystów na tym konkretnym zadaniu, jednocześnie stając się bardziej spójne i lepiej skalibrowane pod względem pewności siebie.
Mocne strony, ślepe punkty i ludzka weryfikacja
Bliższa analiza ujawniła istotne zastrzeżenia. Eksperci kliniczni przejrzeli rozumowanie wygenerowane przez dwa najlepsze modele. Jeden z nich, GPT-4, częściej wykazywał solidne rozumienie objawów, prawidłowe stosowanie wiedzy o epilepsji i spójną logikę. Często także poprawnie cytował rzeczywiste artykuły naukowe. Inny silny wykonawca, Mixtral-8×7B, czasem osiągał prawidłową odpowiedź z błędnych powodów — źle odczytywał szczegóły objawów lub wymyślał wspierające fakty i odniesienia. Badanie wykazało również, że wydajność zależała od długości opisu napadu, roli klinicznej, jaką polecano modelowi udawać, oraz użytego języka. Najlepiej działały opisy bardzo krótkie lub bardzo szczegółowe, udawanie specjalisty poprawiało wyniki, a używanie promptów w języku innym niż angielski mogło obniżać dokładność.
Co to oznacza dla przyszłej opieki
Autorzy konkludują, że duże modele językowe mogą w kontrolowanym środowisku przekształcać nieustrukturyzowane relacje o napadach w użyteczne oszacowania miejsca rozpoczęcia napadów w mózgu. Przy starannie zaprojektowanych promptach ich wydajność może zbliżyć się do wiedzy doświadczonych klinicystów, przynajmniej w wąskim zadaniu mapowania objawów napadu na szerokie regiony mózgu. Jednocześnie modele mogą brzmieć przekonująco, opierając się na wadliwym rozumowaniu lub zmyślonych źródłach. Ten miks obietnicy i ryzyka oznacza, że takie systemy mogłyby w przyszłości pomagać w triage przypadków lub wspierać wstępne rozumowanie diagnostyczne, ale muszą być dokładnie walidowane, ściśle nadzorowane i stosowane obok, a nie zamiast, ludzkiej ekspertyzy.
Cytowanie: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z
Słowa kluczowe: epilepsja, semiologia napadów, duże modele językowe, rozumowanie diagnostyczne, ocena AI w klinice