Clear Sky Science · sv

GPT-4o för automatisk bestämning av uppföljningsundersökningar baserat på röntgenrapporter från klinisk rutin

· Tillbaka till index

Varför smartare uppföljningsundersökningar spelar roll

När en patient genomgår CT- eller MR-undersökning slutar inte berättelsen med bilderna. Radiologer måste också avgöra om och när uppföljningsundersökningar behövs för att följa tumörer, kontrollera misstänkta fynd eller bekräfta att behandling fungerar. Dessa val kan avgöra skillnaden mellan att upptäcka sjukdom i tid och att utsätta patienter för onödig strålning, kostnader och oro. Denna studie ställde en aktuell fråga: kan ett modernt artificiellt intelligenssystem, GPT-4o, hjälpa till att standardisera dessa uppföljningsbeslut så att patienter får konsekvent, riktlinjebaserad vård?

Figure 1
Figure 1.

Problemet med motstridiga budskap

Fackliga samfund publicerar detaljerade rekommendationer för när och hur man ska upprepa bilddiagnostik för många cancerformer och incidentalomständigheter. Ändå råder ofta oenighet bland radiologer i den dagliga praktiken om uppföljning. Vissa är snabba att ordinera nya undersökningar; andra är mer försiktiga. Tidigare forskning har visat att sannolikheten att rekommendera fortsatt bilddiagnostik kan variera nästan sjufalt mellan radiologer som ser liknande fall. Många föreslagna planer stämmer inte helt med publicerade riktlinjer, vilket leder till att vissa patienter genomgår fler undersökningar än nödvändigt, medan andra kan missa viktiga kontroller. Detta ojämna landskap motiverar verktyg som försiktigt kan styra praxis mot mer konsekventa, evidensbaserade beslut.

Hur studien utformades

Forskarlaget testade GPT-4o, en stor språklig modell utformad för att förstå och generera text, på 100 verkliga radiologiska fall från två tyska sjukhus. Alla fall rörde vuxna som genomgick CT- eller MR-undersökningar för cancerrelaterade frågeställningar i fyra nyckelområden: huvud och hals, lever, lunga och pankreas. För varje fall fick modellen hela den skriftliga rapporten, inklusive sjukdomshistoria, fynd i undersökningen och radiologens slutsats. GPT-4o ombads utföra en uppgift: utifrån denna information föreslå exakt vilken uppföljande bildmodalitet (såsom CT eller MR) och tidpunkten för nästa undersökning. En radiologresident och en erfaren, certifierad radiolog besvarade samma fråga för varje fall.

Mätning av kvalitet mot riktlinjer

För att bedöma dessa rekommendationer jämförde två seniora radiologer, som inte visste vem som lämnat förslagen, alla svar med stora internationella riktlinjer från cancer- och radiologisällskap. De bedömde varje förslag utifrån fyra aspekter: om alla relevanta fynd som behövde uppföljning täcktes, om vald bildmodalitet var lämplig, hur exakt den föreslagna tidpunkten var och en övergripande kvalitetsbedömning på en femgradig skala. I praktiken frågade experterna: håller denna plan patienten säker, följer den reglerna och undviker onödiga undersökningar?

Figure 2
Figure 2.

Hur AI:n stod sig mot människor

Över samtliga 100 fall motsvarade GPT-4o:s övergripande kvalitet för uppföljning den erfarna radiologens och överträffade residentens. Modellens median för den globala kvalitetspoängen var 4 av 5, i praktiken samma som experten och signifikant bättre än underläkaren. GPT-4o angav tidpunkten helt eller delvis korrekt i 96 % av fallen, vilket överträffade residenten (75 %) och låg något före experten (90 %). Den gav också det minsta antalet potentiellt skadliga tidsfel. Modellen tog upp alla fynd som krävde uppföljning i 92 % av fallen, liknande residenten och tydligt bättre än experten i denna specifika mätning. När det gällde val av rätt undersökningstyp presterade GPT-4o nära på samma nivå som båda mänskliga bedömarna. Dess starkaste områden var lung-, lever- och pankreasbilddiagnostik, där riktlinjevägarna är särskilt väl standardiserade; prestandan var något lägre, för alla bedömare, i det mer komplexa huvudet- och halsområdet.

Vad detta kan innebära för framtida vård

Studien antyder att GPT-4o kan fungera som en pålitlig assistent för beslut om uppföljande bilddiagnostik, arbeta på ungefär samma nivå som en erfaren radiolog och bättre än en underläkare i många avseenden. Använt som ett beslutsstöd snarare än en ersättning skulle ett sådant system kunna bidra till att minska onödiga undersökningar, förkorta fördröjningar i väsentlig uppföljning och lätta arbetsbördan i hårt belastade radiologiavdelningar, samtidigt som praxis hålls närmare etablerade riktlinjer. Författarna betonar emellertid att mänskliga experter måste behålla kontrollen: modellen kan fortfarande misstolka rapporter, dess interna processer är otydliga, och studien omfattade endast 100 cancerrelaterade fall från två center. Större, prospektiva prövningar och säkra, lokalt hostade implementationer kommer att behövas innan sådana verktyg säkert kan integreras i dagliga kliniska arbetsflöden.

Citering: Kaya, K., Müller, L., Persigehl, T. et al. GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine. Sci Rep 16, 12587 (2026). https://doi.org/10.1038/s41598-026-40317-9

Nyckelord: radiologisk uppföljning, stora språkliga modeller, medicinskt beslutsstöd, onkologisk bilddiagnostik, GPT-4o