Clear Sky Science · nl

Diagnostische nauwkeurigheid, eerlijkheid en klinische implementatie van AI voor borstkankerscreening: resultaten van multicenter retrospectieve en prospectieve technische haalbaarheidsstudies

2026-03-10 · Terug naar het overzicht

Slimmer screenen voor alledaagse vrouwen

Borstkankerscreening redt levens, maar zet ook gezondheidszorgsystemen onder druk en kan kankers missen of stressvolle vals-positieve meldingen veroorzaken. Deze studie stelt een eenvoudige vraag met grote gevolgen: kan een kunstmatig-intelligentiesysteem (AI) veilig helpen bij het lezen van mammogrammen in het Britse nationale screeningsprogramma, meer gevaarlijke kankers opsporen terwijl het de druk op drukbezette specialisten verlaagt — en dat op een eerlijke manier voor vrouwen uit verschillende achtergronden?

Hoe screening vandaag werkt

In veel landen, waaronder het Verenigd Koninkrijk, worden vrouwen van 50 tot 70 jaar uitgenodigd voor regelmatige mammogrammen. In het VK wordt elke scan gewoonlijk onafhankelijk gelezen door twee menselijke experts; als zij van mening verschillen, bekijkt een panel de zaak. Dit dubbelleessysteem is ontworpen om veilig te zijn, maar het kost veel tijd en is afhankelijk van voldoende getrainde lezers — iets waar veel zorgsystemen mee worstelen. Vroegere computertools boden beperkte hulp en voegden soms meer ruis dan helderheid toe, dus zorgautoriteiten hebben sterk nieuw bewijs gevraagd voordat ze moderne AI binnen nationale programma’s vertrouwen.

AI op de proef stellen in echte klinieken

De onderzoekers evalueerden Googles geüpdatete mammografie-AI in twee belangrijke fasen binnen de Britse National Health Service. Eerst draaiden ze het systeem op bijna 116.000 eerdere screeningsonderzoeken uit vijf verschillende regio’s, en volgden ze vrouwen meer dan drie jaar om te zien welke kankers daadwerkelijk opdoken. Ze vergeleken vervolgens de prestaties van de AI met die van de eerste menselijke lezer, de tweede lezer en de uiteindelijke panelbeslissing. In een tweede fase installeerden ze de AI stilletjes in 12 screeningslocaties en lieten die meer dan 9.000 nieuwe onderzoeken in realtime verwerken — zonder de zorg te beïnvloeden — om te bestuderen hoe het zich gedroeg in de dagelijkse praktijk en hoe de instellingen mogelijk moesten worden bijgesteld.

Wat de AI zag — en wat het oppikte

Over de grote retrospectieve dataset was de AI gevoeliger dan de eerste menselijke lezer: het ontdekte meer kankers in het algemeen terwijl het het aantal vals-positieve meldingen binnen een vooraf ingestelde veiligheidsmarge hield. Als de AI als één lezer in het dubbelleeswerkproces was gebruikt, zou het de kankerdetectiesnelheid hebben verhoogd van ongeveer 7,5 naar 9,3 kankers per 1.000 vrouwen, en het markeerde terecht één op de vier kankers die oorspronkelijk werden gemist en pas later werden ontdekt, hetzij tussen screenings door, hetzij bij het volgende routinemoment. De winst was bijzonder sterk bij vrouwen die voor hun eerste screening kwamen — meestal de lastigste groep om te interpreteren omdat er geen eerdere beelden zijn. Bij deze eerste bezoeken riep de AI zowel minder vrouwen terug als detecteerde het toch iets meer kankers, met name invasieve tumoren die het grootste risico vormen.

Eerlijkheid, werklast en praktische hindernissen

Het team keek zorgvuldig of de AI verschillende groepen vrouwen eerlijk behandelde. Over leeftijd, borstweefseldichtheid, sociaaleconomische status en de beperkte etniciteitsgegevens die beschikbaar waren, zagen ze geen consistente aanwijzingen voor schadelijke vooringenomenheid: sensitiviteit en specificiteit bleven binnen nauwe marges vergeleken met menselijke lezers, hoewel sommige zeer kleine subgroepen grote onzekerheid hadden. Ze modelleerden ook hoe het gebruik van AI als tweede lezer het werk zou hervormen. Het aantal menselijke screeninglezingen vóór panelbeoordeling zou bijna gehalveerd kunnen worden, waardoor de leestijd met ongeveer een derde daalt, ook al zouden meer gevallen naar het panel worden doorverwezen. In de live haalbaarheidsfase leverde de AI resultaten binnen enkele minuten — veel sneller dan routinelezen door mensen — maar het team ontdekte een verschuiving in hoe recente beelden eruitzagen vergeleken met oudere trainingsdata. Een aanvankelijke bedrijfsdrempel bleek te gevoelig en veroorzaakte hogere terugroepsnelheden, en moest naar beneden worden bijgesteld met behulp van verse lokale data.

Een AI-klare screeningsstructuur opbouwen

Naast nauwkeurigheid bracht de studie praktische barrières voor veilige uitrol aan het licht. Veel screeningscentra vertrouwen nog op papieren formulieren en verouderde software die AI-resultaten niet automatisch kan opslaan of niet kan uitleggen waarom een scan werd teruggeroepen — functies die toezichthouders en clinici nodig hebben. De auteurs stellen dat volledig digitale, gestandaardiseerde workflows en betere verzameling van demografische gegevens cruciaal zullen zijn om prestaties en eerlijkheid in de tijd te monitoren. Ze benadrukken ook dat AI-drempels niet “instellen en vergeten” kunnen zijn: beeldapparatuur, gedrag van lezers en samenstelling van de populatie veranderen allemaal, dus het systeem moet continu worden gecontroleerd en bijgesteld, met duidelijke nationale regels en technische ondersteuning.

Wat dit betekent voor patiënten

De bevindingen suggereren dat een zorgvuldig geïmplementeerd AI-systeem nationale borstscreeningsprogramma’s kan helpen ernstigere kankers eerder op te sporen, vooral bij vrouwen die voor hun eerste mammogram komen, terwijl de werklast voor overbelaste specialisten afneemt. Toch benadrukken de auteurs dat succes meer vereist dan een nauwkeurig algoritme. Gezondheidsdiensten hebben voortdurende kalibratie, rigoureuze monitoring op drift en bias, geüpgradede IT-infrastructuur en zorgvuldige integratie in bestaande menselijke workflows nodig. Met deze waarborgen op hun plaats kan AI een betrouwbare extra lezer worden die zowel de efficiëntie als de gelijkheid van borstkankerscreening verbetert, in plaats van een black box die nieuwe risico’s toevoegt.

Bronvermelding: Kelly, C.J., Wilson, M., Warren, L.M. et al. Diagnostic accuracy, fairness and clinical implementation of AI for breast cancer screening: results of multicenter retrospective and prospective technical feasibility studies. Nat Cancer 7, 494–506 (2026). https://doi.org/10.1038/s43018-026-01127-0

Trefwoorden: borstkankerscreening, medische kunstmatige intelligentie, mammografie, gezondheidszorg eerlijkheid, klinische implementatie