Clear Sky Science · sv

Prestanda hos algoritmer för riskbedömning av bröstcancer över olika mammografisystem i Storbritanniens screeningsprogram

· Tillbaka till index

Varför detta är viktigt för kvinnor och familjer

Bröstscreening räddar liv genom att upptäcka cancer tidigt, men många tumörer dyker fortfarande upp under åren mellan rutinmammografierna, ofta i ett senare stadium. Denna studie ställer en enkel men viktig fråga: kan artificiell intelligens (AI) läsa en ”normal” mammografi och diskret markera kvinnor som faktiskt har hög korttidsrisk, så att de kan erbjudas extra kontroller innan en cancer växer och sprider sig?

Figure 1
Figure 1.

Se mer i en normal mammografi

De flesta nationella screeningprogram, inklusive Storbritanniens, kallar kvinnor till mammografi vart tredje år. Om inget misstänkt syns får de besked om att undersökningen är ”negativ” och återgår till vardagen. Ändå är cirka 30 % av bröstcancerfallen hos screenade kvinnor ”intervallcancertumörer” som uppträder mellan schemalagda besök och ofta har en sämre prognos. På senare tid har kraftfulla AI‑system lärt sig att tolka mammografier som ser normala ut för mänskliga läsare och tilldela varje kvinna en korttidsriskpoäng. Idén är att använda denna dolda information för att skräddarsy hur ofta kvinnor screenas och vem som bör erbjudas känsligare undersökningar som MR eller kontrastförstärkt mammografi.

Sätta fyra AI‑verktyg på prov

Forskarna granskade 112 621 negativa screeningmammografier från två platser i NHS Breast Screening Programme i England, som täckte en hel treårsperiod från 2014 till 2017 och följde kvinnorna i fem år. De två platserna använde olika digitala mammografimaskiner (Philips och GE), vilket speglar variation i verkliga världen. Under uppföljningen utvecklade 1 225 kvinnor bröstcancer, inklusive 396 intervallcancerfall och ytterligare cancerfall upptäckta vid nästa screeningrunda. Fyra ledande AI‑riskalgoritmer — tre kommersiella och en akademisk modell — kördes lokalt på varje mammografi för att generera en riskpoäng för framtida cancer, och deras prestanda jämfördes.

Hur väl algoritmerna upptäckte framtida cancer

Alla fyra AI‑system kunde i högre grad än slumpen skilja mellan kvinnor som skulle respektive inte skulle utveckla cancer, men de presterade inte lika bra. En algoritm (benämnd DL‑1) visade konsekvent starkast prestanda, medan en annan (DL‑3) låg efter. När teamet fokuserade på intervallcancer — de som dyker upp snart efter en ”normal” undersökning — nådde den bästa modellen noggrannhetsnivåer liknande eller bättre än tidigare studier med enstaka algoritmer. Viktigt är att tre av de fyra verktygen betedde sig likartat på både Philips‑ och GE‑bilder, vilket tyder på att de klarar åtminstone vissa skillnader i hårdvara, även om en algoritm presterade märkbart sämre på ett system.

Vad händer om vi agerar på de högsta riskpoängen?

Den praktiska frågan för screeningsjukvården är hur många kvinnor som ska kallas tillbaka baserat på AI‑poäng. Forskarna undersökte därför kliniskt meningsfulla gränsvärden. Om endast de 4 % kvinnor med högst risk (enligt varje verktygs poäng) valdes ut för extra uppmärksamhet fångade de två bästa algoritmerna tillsammans omkring en av fem av alla framtida cancerfall och mer än en fjärdedel av intervallcancern. När tröskeln slappades till de 14 % högsta riskpoängen — närmare återkallningsfrekvenser som ses i vissa nordamerikanska program — ungefär fördubblades utbytet: den starkaste modellen identifierade cirka 42 % av alla framtida cancerfall och hälften av intervallcancern. Däremot tenderade varje algoritm att flagga delvis olika delmängder av cancerfallen, med relativt liten överlappning, vilket antyder att ensemble‑ eller fler‑verktygsstrategier kanske hittar fler tumörer än någon enskild modell.

Figure 2
Figure 2.

Styrkor, luckor och nästa steg

Detta arbete utmärker sig eftersom det använder fullständig, rutinmässig data från två stora NHS‑screeningscenter snarare än ett snävt utvalt forskningsurval, och det är det första att utvärdera flera namngivna AI‑riskverktyg sida vid sida i en brittisk miljö. Samtidigt finns begränsningar. Kvinnor med implantat eller icke‑standardiserade bildvyer exkluderades, och studien omfattade endast två mammografimärken, så prestanda på annan utrustning eller i olika etniska grupper är osäker. Eftersom analysen var retrospektiv räknades vissa cancerfall som kunde ha hittats tidigare med riskbaserad extra bilddiagnostik inte med, vilket innebär att den verkliga nyttan kan vara större än rapporterat.

Vad detta betyder för framtidens bröstscreening

För en allmän läsare är slutsatsen att modern AI faktiskt kan hitta varningstecken i ”normala” mammografier som förutsäger vilka kvinnor som sannolikt utvecklar bröstcancer inom kort tid, särskilt intervallcancertumörer som annars är svåra att fånga tidigt. De bästa algoritmerna skulle i princip kunna göra det möjligt för screeningprogram att erbjuda tätare eller känsligare tester till en relativt liten grupp högre‑riskkvinnor, medan andra fortsätter med standardkontroller vart tredje år. Samtidigt visar skillnaderna mellan verktyg och mellan bildsystem att ingen enskild AI‑modell är redo att införas överallt utan noggrann testning. Författarna förespråkar stora prospektiva prövningar som använder flera algoritmer, tillsammans med finjustering för lokala skannrar och populationer, innan AI‑styrd, riskbaserad bröstscreening tryggt kan bli rutinvård.

Citering: Rothwell, J., Payne, N., Kilburn-Toppin, F. et al. Performance of breast cancer risk prediction algorithms across mammography systems in the UK screening programme. npj Digit. Med. 9, 330 (2026). https://doi.org/10.1038/s41746-026-02507-7

Nyckelord: bröstcancerscreening, artificiell intelligens, mammografi, riskbedömning, intervallcancertumörer