Clear Sky Science · pl

GPT-4o do automatycznego określania badań kontrolnych na podstawie raportów radiologicznych z rutynowej praktyki klinicznej

· Powrót do spisu

Dlaczego inteligentniejsze skany kontrolne mają znaczenie

Gdy pacjent przechodzi badanie CT lub MRI, historia nie kończy się na samych obrazach. Radiolodzy muszą również zdecydować, czy i kiedy potrzebne są badania kontrolne, aby śledzić guzy, sprawdzić podejrzane ogniska lub potwierdzić skuteczność leczenia. Te wybory mogą przesądzić o wykryciu choroby we wczesnym stadium lub o narażeniu pacjentów na niepotrzebne promieniowanie, koszty i stres. W badaniu postawiono aktualne pytanie: czy nowoczesny system sztucznej inteligencji, GPT-4o, może pomóc ujednolicić decyzje dotyczące kontroli, tak by pacjenci otrzymywali spójną opiekę zgodną z zaleceniami?

Figure 1
Figure 1.

Problem rozbieżnych zaleceń

Towarzystwa zawodowe publikują szczegółowe rekomendacje, kiedy i jak powtarzać obrazowanie dla wielu nowotworów i przypadkowo wykrytych zmian. Jednak w codziennej praktyce radiolodzy często różnią się co do dalszych postępowań. Niektórzy szybko zlecają powtórne badania, inni podchodzą do tego ostrożniej. Poprzednie badania wykazały, że prawdopodobieństwo zalecenia dodatkowego obrazowania może się różnić niemal siedmiokrotnie między radiologami oceniającymi podobne przypadki. Wiele zaproponowanych planów nie odpowiada w pełni opublikowanym wytycznym, co prowadzi do sytuacji, w których jedni pacjenci przechodzą więcej badań niż to konieczne, a inni mogą nie mieć terminowych kontroli. Ten nierówny obraz motywuje do stworzenia narzędzi, które łagodnie skierują praktykę ku bardziej spójnym, opartym na dowodach decyzjom.

Jak zaprojektowano badanie

Badacze przetestowali GPT-4o, duży model językowy zaprojektowany do rozumienia i generowania tekstu, na 100 rzeczywistych przypadkach radiologicznych z dwóch niemieckich szpitali. Wszystkie przypadki dotyczyły dorosłych poddawanych badaniom CT lub MRI w związku z pytaniami onkologicznymi w czterech kluczowych obszarach: głowa i szyja, wątroba, płuca i trzustka. Model otrzymał pełny raport pisemny dla każdego przypadku, w tym wywiad medyczny, opisy zmian w badaniu i wnioski radiologa. GPT-4o poproszono o jedno zadanie: na tej podstawie zaproponować dokładną metodę badania kontrolnego (np. CT lub MRI) oraz termin następnego badania. Na to samo pytanie odpowiadali rezydent radiologii oraz doświadczony radiolog z tytułem specjalisty dla każdego przypadku.

Ocena jakości względem wytycznych

Aby ocenić te rekomendacje, dwaj starsi radiolodzy, nieświadomi źródła odpowiedzi, porównali wszystkie propozycje z głównymi międzynarodowymi wytycznymi towarzystw onkologicznych i radiologicznych. Oceniali każdą propozycję w czterech obszarach: czy uwzględniono wszystkie istotne zmiany wymagające kontroli, czy wybrano odpowiednią technikę obrazowania, jak trafny był proponowany termin oraz ogólną jakość w skali pięciopunktowej. W praktyce eksperci pytali: czy plan zapewnia bezpieczeństwo pacjenta, przestrzega zasad i unika niepotrzebnych badań?

Figure 2
Figure 2.

Jak SI wypadała w porównaniu z ludźmi

Wśród wszystkich 100 przypadków ogólna jakość zaleceń dotyczących kontroli proponowanych przez GPT-4o odpowiadała poziomowi doświadczonego radiologa i przewyższała rezydenta. Mediana globalnej oceny jakości modelu wyniosła 4 na 5, co było zasadniczo równe wynikowi eksperta i istotnie wyższe niż stażysty. GPT-4o poprawnie lub częściowo poprawnie określił termin w 96% przypadków, przewyższając rezydenta (75%) i nieco wyprzedzając eksperta (90%). Model popełnił także najmniej potencjalnie szkodliwych błędów terminologicznych. W 92% przypadków uwzględnił wszystkie zmiany wymagające kontroli, podobnie jak rezydent i wyraźnie lepiej niż ekspert w tym konkretnym wymiarze. W wyborze właściwego rodzaju badania GPT-4o osiągnął niemal porównywalny wynik z obiema ludzkimi ocenami. Najlepiej radził sobie w obszarach płuc, wątroby i trzustki, gdzie ścieżki postępowania są szczególnie dobrze ustandaryzowane; wyniki były nieco gorsze, dla wszystkich oceniających, w bardziej złożonej okolicy głowy i szyi.

Co to może oznaczać dla przyszłej opieki

Badanie sugeruje, że GPT-4o może pełnić rolę niezawodnego asystenta przy decyzjach o badaniach kontrolnych, działając na poziomie zbliżonym do doświadczonego radiologa i w wielu aspektach lepiej niż rezydent. Używany jako narzędzie wspomagające decyzje, a nie zastępujące człowieka, taki system mógłby pomóc ograniczyć niepotrzebne badania, skrócić opóźnienia w istotnych kontrolach i odciążyć przepracowane pracownie radiologiczne, jednocześnie przybliżając praktykę do ustalonych wytycznych. Autorzy podkreślają jednak, że to eksperci ludzcy muszą pozostać odpowiedzialni: model wciąż może błędnie interpretować raporty, jego działanie jest nieprzejrzyste, a badanie objęło tylko 100 przypadków onkologicznych z dwóch ośrodków. Zanim takie narzędzia zostaną bezpiecznie włączone do codziennych procesów klinicznych, potrzebne będą większe, prospektywne próby oraz bezpieczne wdrożenia lokalne.

Cytowanie: Kaya, K., Müller, L., Persigehl, T. et al. GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine. Sci Rep 16, 12587 (2026). https://doi.org/10.1038/s41598-026-40317-9

Słowa kluczowe: kontrole radiologiczne, duże modele językowe, wsparcie decyzji medycznych, obrazowanie onkologiczne, GPT-4o