Clear Sky Science · de

Leistungsfähigkeit von Brustkrebs‑Risikovorhersage‑Algorithmen über Mammographiesysteme hinweg im britischen Screening‑Programm

2026-03-08 · Zurück zur Übersicht

Warum das für Frauen und Familien wichtig ist

Brustuntersuchungen retten Leben, weil sie Krebs frühzeitig entdecken; dennoch treten viele Tumoren in den Jahren zwischen den routinemäßigen Mammographien auf, oft in einem fortgeschritteneren Stadium. Diese Studie stellt eine einfache, aber bedeutsame Frage: Kann künstliche Intelligenz (KI) eine „normale" Mammographie so lesen, dass sie stillschweigend Frauen markiert, die tatsächlich ein hohes Kurzzeitrisiko haben, damit ihnen zusätzliche Untersuchungen angeboten werden können, bevor ein Krebs wächst und sich ausbreitet?

Mehr sehen in einer normalen Mammographie

Die meisten nationalen Screening‑Programme, einschließlich des britischen, laden Frauen alle drei Jahre zur Mammographie ein. Wenn nichts Verdächtiges zu sehen ist, erhalten sie die Mitteilung, dass der Scan „negativ" ist, und kehren zum normalen Leben zurück. Etwa 30 % der Brustkrebserkrankungen bei gescreenten Frauen sind jedoch „Intervallkarzinome", die zwischen den geplanten Terminen auftreten und tendenziell eine ungünstigere Prognose haben. Kürzlich haben leistungsstarke KI‑Systeme gelernt, auf Mammographien, die für menschliche Leser normal erscheinen, Hinweise zu finden und jeder Frau einen Kurzzeitrisikowert zuzuweisen. Die Idee ist, diese versteckten Informationen zu nutzen, um die Häufigkeit der Untersuchungen zu individualisieren und zu entscheiden, wer sensiblere Tests wie MRT oder kontrastverstärkte Mammographie angeboten bekommen sollte.

Vier KI‑Werkzeuge im Test

Die Forschenden untersuchten 112.621 als negativ befundene Screening‑Mammographien von zwei Standorten des NHS Breast Screening Programme in England, die eine vollständige dreijährige Runde von 2014 bis 2017 abdeckten, mit einer Nachverfolgung der Frauen über fünf Jahre. Die beiden Zentren verwendeten unterschiedliche digitale Mammographiesysteme (Philips und GE), was reale Unterschiede widerspiegelt. Während der Nachbeobachtung erkrankten 1.225 Frauen an Brustkrebs, darunter 396 Intervallkarzinome und weitere Karzinome, die in der nächsten Screening‑Runde entdeckt wurden. Vier führende KI‑Risikowerkzeuge – drei kommerzielle und ein akademisches Modell – wurden lokal auf jede Mammographie angewendet, um einen Risikowert für zukünftigen Krebs zu erzeugen, und ihre Leistung wurde verglichen.

Wie gut die Algorithmen zukünftige Krebserkrankungen erkannten

Alle vier KI‑Systeme konnten besser als zufällig zwischen Frauen unterscheiden, die Krebs entwickeln würden, und solchen, die es nicht taten, zeigten jedoch keine identische Leistung. Ein Algorithmus (bezeichnet als DL‑1) zeigte durchgehend die stärkste Leistung, während ein anderer (DL‑3) zurückblieb. Als das Team den Fokus auf Intervallkarzinome legte – solche, die kurz nach einem „normalen" Scan auftauchen – erreichte das beste Modell Genauigkeitswerte, die denen früherer Einzel‑Algorithmus‑Studien entsprachen oder diese übertrafen. Wichtig ist, dass drei der vier Werkzeuge auf Philips‑ und GE‑Bildern ähnlich performten, was darauf hindeutet, dass sie mit zumindest einigen Unterschieden in der Scannerausstattung zurechtkommen, obwohl ein Algorithmus auf einem System deutlich schlechter abschnitt.

Was passiert, wenn man nach den höchsten Risikowerten handelt?

Die praktische Frage für Screening‑Dienste lautet: Wie viele Frauen sollen anhand der KI‑Werte zurückgerufen werden? Die Forschenden analysierten daher klinisch sinnvolle Schwellenwerte. Wenn nur die obersten 4 % der höchsten Risikowerte (jeweils nach den Scores eines Werkzeugs) für zusätzliche Aufmerksamkeit ausgewählt würden, ergatterten die beiden besten Algorithmen zusammen etwa eines von fünf aller zukünftig auftretenden Karzinomen und mehr als ein Viertel der Intervallkarzinome. Wenn die Schwelle auf die obersten 14 % der Risikowerte gelockert wurde – näher an den Rückrufquoten, die in einigen nordamerikanischen Programmen zu sehen sind – verdoppelte sich der Ertrag ungefähr: Das stärkste Modell identifizierte rund 42 % aller zukünftigen Karzinome und die Hälfte der Intervallkarzinome. Allerdings neigten die einzelnen Algorithmen dazu, teilweise unterschiedliche Subsets von Karzinomen zu markieren, mit relativ wenig Überschneidung, was darauf hindeutet, dass Ensemble‑ oder Multi‑Tool‑Strategien mehr Tumoren finden könnten als ein einzelnes Modell allein.

Stärken, Lücken und nächste Schritte

Diese Arbeit sticht hervor, weil sie vollständige Routinedaten aus zwei großen NHS‑Screeningzentren verwendet, statt einer eng ausgewählten Forschungsstichprobe, und weil sie als erste mehrere namentlich benannte KI‑Risikowerkzeuge nebeneinander im UK‑Kontext bewertet. Gleichzeitig gibt es Einschränkungen. Frauen mit Implantaten oder nicht‑standardisierten Bildaufnahmen wurden ausgeschlossen, und die Studie umfasste nur zwei Mammographiesysteme, sodass die Leistung an anderen Geräten oder in verschiedenen ethnischen Gruppen unsicher bleibt. Da die Analyse retrospektiv war, wurden einige Karzinome, die mit risikobasierter zusätzlicher Bildgebung früher entdeckt worden wären, nicht erfasst, was bedeutet, dass der tatsächliche Nutzen größer sein könnte als berichtet.

Was das für das zukünftige Brust‑Screening bedeutet

Für den Laien lautet die Schlussfolgerung: Moderne KI kann tatsächlich Warnzeichen in „normalen" Mammographien finden, die vorhersagen, welche Frauen wahrscheinlich bald an Brustkrebs erkranken, insbesondere Intervallkarzinome, die sonst schwer früh zu erfassen sind. Die besten Algorithmen könnten prinzipiell Screening‑Programmen ermöglichen, einer relativ kleinen Gruppe höherer Risiko‑Frauen häufigere oder empfindlichere Tests anzubieten, während andere bei den standardmäßigen dreijährigen Kontrollen verbleiben. Dennoch zeigen die Unterschiede zwischen den Werkzeugen und zwischen den Bildgebungssystemen, dass kein einzelnes KI‑Modell ohne sorgfältige Prüfung überall übernommen werden kann. Die Autoren plädieren für große prospektive Studien mit mehreren Algorithmen sowie für Feinabstimmungen an lokale Scanner und Populationen, bevor ein KI‑gesteuertes, risikobasiertes Brust‑Screening sicher zur Routineversorgung wird.

Zitation: Rothwell, J., Payne, N., Kilburn-Toppin, F. et al. Performance of breast cancer risk prediction algorithms across mammography systems in the UK screening programme. npj Digit. Med. 9, 330 (2026). https://doi.org/10.1038/s41746-026-02507-7

Schlüsselwörter: Brustkrebs‑Screening, künstliche Intelligenz, Mammographie, Risikovorhersage, Intervallkarzinome