Clear Sky Science · pl

Zautomatyzowana klasyfikacja odpowiedzi guza według RECIST przy użyciu dużych modeli językowych sterowanych promptami

2026-05-27 · Powrót do spisu

Dlaczego to ma znaczenie dla osób z rakiem

Kiedy ktoś jest leczony z powodu nowotworu, lekarze opierają decyzje o tym, czy terapia działa, powinna być zmieniona lub przerwana, na raportach z badań obrazowych. Czytanie i streszczanie tych raportów zajmuje dużo czasu i może być obarczone drobnymi błędami. Badanie to sprawdza, czy duży model językowy — rodzaj sztucznej inteligencji rozumiającej tekst — może bezpiecznie pomóc lekarzom sortować raporty z badań do standardowych kategorii odpowiedzi, przy czym dane pacjentów pozostają w obrębie szpitala.

Jak lekarze zwykle śledzą zmiany guza

W onkologii rutynowo wykonuje się badania TK, aby ocenić, jak guzy reagują na leczenie. Lekarze często stosują zestaw reguł zwany RECIST, który grupuje stan pacjenta w kategorie takie jak całkowita odpowiedź, częściowa odpowiedź, choroba stabilna, postęp choroby lub stan wyjściowy przed rozpoczęciem leczenia. Chociaż wiele szpitali używa półustrukturyzowanych szablonów do tych raportów, ostateczny osąd dotyczący odpowiedzi często jest zapisywany w tekście swobodnym. Oznacza to, że ekspert musi interpretować pomiary, porównać je z wcześniejszymi badaniami i przetłumaczyć to wszystko na jedną ze standardowych kategorii — proces żmudny i czasem niespójny.

Figure 1. Szpitalne AI działające offline odczytuje raporty z TK i przekształca je w proste kategorie odpowiedzi guza dla lekarzy.

Co badacze polecili komputerowi

Zespół z niemieckiego szpitala uniwersyteckiego sprawdził, czy model językowy ogólnego przeznaczenia LLaMA 3.3 o 70 miliardach parametrów potrafi odczytać rzeczywiste raporty TK pacjentów onkologicznych i przypisać poprawną kategorię RECIST bez dodatkowego trenowania na lokalnych danych. Pracowali całkowicie offline w zabezpieczonej infrastrukturze szpitala, tak aby żadne informacje o pacjentach nie opuszczały placówki. Zanim model zobaczył raporty, usunięto oryginalne etykiety odpowiedzi, ale wszystkie pomiary i wartości odniesienia pozostały, aby system mógł porównać obecne rozmiary guzów z wcześniejszymi wartościami wyjściowymi lub najmniejszymi zarejestrowanymi rozmiarami.

Różne sposoby kierowania AI

Badacze wypróbowali trzy sposoby instruowania modelu, znane jako strategie promptowania. W podejściu zero-shot model otrzymywał jedynie raport i krótką instrukcję, aby wypisać jedną z pięciu kategorii. W podejściu few-shot pokazywano modelowi kilka przykładowych fragmentów raportów wraz z prawidłową kategorią, ucząc go przez demonstrację. W podejściu chain-of-thought poproszono model o wyjaśnienie swojego rozumowania krok po kroku w prostym języku przed podaniem ostatecznej kategorii, a kilka niezależnych rozważań łączono, aby uzyskać decyzję większościową. Na 142 raportach oceniano, jak często AI zgadzało się z ekspertami, używając miar dokładności i standardowych wskaźników klasyfikacji.

Jak dobrze system zgadzał się z ludzkimi czytelnikami

Strategia chain-of-thought wypadła najlepiej — poprawnie sklasyfikowała około czterech na pięć raportów i uzyskała najlepszy balans między wykrywaniem prawdziwych przypadków a unikaniem fałszywych alarmów. Szczególnie dobrze rozróżniała częściową odpowiedź od choroby stabilnej, dwóch kategorii często mylonych, oraz poprawiła wyniki dla rzadziej występujących rezultatów, takich jak całkowita odpowiedź. Promptowanie zero-shot wypadło już zadziwiająco dobrze, czasami lepiej niż dodanie kilku przykładów, co sugeruje, że sposób sformułowania instrukcji może mieć większe znaczenie niż sama liczba przykładów treningowych. Podejście few-shot pomagało w niektórych trudnych kategoriach, ale może też wprowadzać nowe błędy, gdy niewielki zestaw przykładów nie odzwierciedla w pełni różnorodności rzeczywistych raportów.

Figure 2. AI analizuje raport radiologiczny, rozumuje o zmianach guza i przypisuje jedną z kilku kolorystycznie oznaczonych kategorii odpowiedzi.

Co ujawniają błędy i ograniczenia

Analiza macierzy pomyłek, które pokazują, które kategorie system miał skłonność mylić, wykazała, że metoda chain-of-thought generowała mniej systematycznych błędów i wzór przypominający staranne rozumowanie kliniczne. Model nadal jednak miał problemy w sytuacjach granicznych, gdy tekst nie rozróżniał wyraźnie skanu wyjściowego od późniejszego skanu bez widocznego pozostałego guza. Badanie używało raportów z jednej instytucji, które stosowały zunifikowane szablony, więc wyniki mogą się różnić w szpitalach o luźniejszym stylu pisania. Praca skupiała się na jednym raporcie naraz i nie obejmowała jeszcze dłuższych historii z wielu wizyt, które są wymagane w niektórych formalnych protokołach badań klinicznych.

Co to może oznaczać dla przyszłej opieki onkologicznej

Dla laika kluczowe przesłanie jest takie, że AI analizujące tekst może wspomagać radiologów, sprawdzając, czy wnioski zapisane w raportach TK zgadzają się z liczbami i regułami, które kierują decyzjami terapeutycznymi. Uruchamianie systemu całkowicie offline chroni prywatność pacjentów, a jednocześnie oferuje skalowalne narzędzie, które może zmniejszyć nakład pracy ręcznej i wskazywać niespójności. Autorzy podkreślają, że takie modele powinny wspierać, a nie zastępować klinicystów, i że należy je walidować w wielu placówkach oraz integrować z przeglądem ludzkim. Przy ostrożnym wdrożeniu systemy tego typu mogą pomóc zapewnić, że opis w raporcie z badania lepiej odpowiada faktom widocznym na obrazach i standardom stosowanym do kierowania terapią.

Cytowanie: Mergen, M., Busch, F., Sauter, A.P. et al. Automated RECIST tumor response classification through prompt-guided large language models. Sci Rep 16, 16433 (2026). https://doi.org/10.1038/s41598-026-54979-y

Słowa kluczowe: AI w radiologii, odpowiedź guza, RECIST, duże modele językowe, raportowanie w onkologii