Clear Sky Science · de

Diagnostische Genauigkeit, Fairness und klinische Implementierung von KI für das Mammographiescreening: Ergebnisse multizentrischer retrospektiver und prospektiver technischer Machbarkeitsstudien

· Zurück zur Übersicht

Intelligenteres Screening für den Alltag

Brustkrebs-Screenings retten Leben, belasten aber auch Gesundheitssysteme und können Tumore übersehen oder stressige Fehlarme auslösen. Diese Studie stellt eine einfache Frage mit weitreichenden Folgen: Kann ein Programm zur künstlichen Intelligenz (KI) sicher dabei helfen, Mammographien im nationalen Screeningprogramm des Vereinigten Königreichs zu lesen, mehr gefährliche Tumore zu entdecken und gleichzeitig den Druck auf überlastete Fachkräfte zu verringern — und das gerecht für Frauen mit unterschiedlichem Hintergrund?

Figure 1
Figure 1.

Wie Screening heute funktioniert

In vielen Ländern, einschließlich des Vereinigten Königreichs, werden Frauen im Alter von 50 bis 70 Jahren zu regelmäßigen Mammographien eingeladen. Im Vereinigten Königreich wird jede Aufnahme in der Regel unabhängig von zwei menschlichen Expertinnen oder Experten gelesen; wenn sie sich nicht einig sind, überprüft ein Gremium den Fall. Dieses Doppel-Leseverfahren ist auf Sicherheit ausgelegt, ist aber zeitaufwendig und setzt voraus, dass genügend geschulte Leser verfügbar sind — etwas, womit viele Gesundheitssysteme zu kämpfen haben. Frühere Computerwerkzeuge boten nur begrenzte Unterstützung und erzeugten manchmal eher Rauschen als Klarheit, weshalb Behörden belastbare neue Belege verlangten, bevor sie modernen KI-Systemen in nationale Programme vertrauten.

KI im Test in realen Kliniken

Die Forschenden bewerteten Googles aktualisierte Mammographie-KI in zwei großen Phasen innerhalb des National Health Service des Vereinigten Königreichs. Zuerst ließen sie das System auf fast 116.000 frühere Screening-Untersuchungen aus fünf Regionen laufen und verfolgten die Frauen mehr als drei Jahre, um zu sehen, welche Tumore tatsächlich auftraten. Sie verglichen die Leistung der KI mit der der ersten menschlichen Leserin/des ersten Lesers, der zweiten Leserin/des zweiten Lesers und der abschließenden Gremienentscheidung. In einer zweiten Phase installierten sie die KI stillschweigend an 12 Screening-Standorten und ließen sie über 9.000 neue Untersuchungen in Echtzeit verarbeiten — ohne die Versorgung zu beeinflussen — um zu untersuchen, wie sie sich im Alltag verhält und welche Einstellungen möglicherweise angepasst werden müssen.

Was die KI sah — und was sie entdeckte

In dem großen retrospektiven Datensatz war die KI empfindlicher als die erste menschliche Leserin/der erste menschliche Leser: Sie erkannte insgesamt mehr Tumore und hielt dabei die Rate falscher Alarme innerhalb einer vordefinierten Sicherheitsgrenze. Würde das System als eine Leserin/ein Leser im Doppel-Lese-Workflow eingesetzt, hätte sich die Krebsentdeckungsrate von etwa 7,5 auf 9,3 Tumore pro 1.000 Frauen erhöht, und es hätte einen von vier Tumoren korrekt markiert, die ursprünglich übersehen und erst später entdeckt wurden — entweder zwischen den Screenings oder beim nächsten Routinebesuch. Die Zugewinne waren besonders ausgeprägt bei Frauen, die zum ersten Mal zur Untersuchung kamen — üblicherweise die schwierigste Gruppe, weil keine Voraufnahmen vorliegen. Bei diesen Erstuntersuchungen rief die KI sowohl weniger Frauen zurück als erkannte dennoch etwas mehr Tumore, insbesondere invasive Tumoren, die die größte Gefahr darstellen.

Fairness, Arbeitsaufwand und Hürden in der Praxis

Das Team untersuchte sorgfältig, ob die KI verschiedene Frauengruppen gerecht behandelt. Über Alter, Brustdichte, sozioökonomischen Status und die begrenzten verfügbaren Ethnizitätsdaten hinweg fanden sie keine konsistenten Hinweise auf schädliche Verzerrungen: Sensitivität und Spezifität blieben im Vergleich zu menschlichen Lesenden in engen Grenzen, obwohl bei sehr kleinen Untergruppen große Unsicherheiten bestanden. Sie modellierten auch, wie sich die Nutzung der KI als zweite Leserin/zweiter Leser auf die Arbeitslast auswirken würde. Die Zahl der menschlichen Lesevorgänge vor der Gremienüberprüfung könnte sich fast halbieren, wodurch die Lesezeit um etwa ein Drittel sinkt, obwohl mehr Fälle an das Gremium eskaliert würden. In der Live-Machbarkeitsphase lieferte die KI Ergebnisse innerhalb von Minuten — deutlich schneller als routinemäßiges menschliches Lesen — doch das Team entdeckte eine Veränderung darin, wie aktuelle Aufnahmen im Vergleich zu älteren Trainingsdaten aussahen. Eine anfänglich eingesetzte Schwelle war zu empfindlich, was höhere Rückrufquoten verursachte und mit frischen lokalen Daten nach unten kalibriert werden musste.

Figure 2
Figure 2.

Aufbau eines KI-tauglichen Screening-Systems

Über die Genauigkeit hinaus zeigte die Studie praktische Hürden für eine sichere Einführung auf. Viele Screening-Zentren arbeiten noch mit Papierformularen und veralteter Software, die KI-Ergebnisse nicht automatisch speichern oder erklären kann, warum eine Aufnahme zurückgerufen wurde — Funktionen, die Regulierungsbehörden und Kliniker benötigen. Die Autoren argumentieren, dass vollständig digitale, standardisierte Arbeitsabläufe und eine bessere Erhebung demografischer Daten entscheidend sein werden, um Leistung und Fairness im Zeitverlauf zu überwachen. Sie betonen außerdem, dass KI-Schwellenwerte nicht „einmal einstellen und vergessen“ sein dürfen: Bildgebungsgeräte, Leser-Verhalten und die Zusammensetzung der Bevölkerung ändern sich, daher muss das System kontinuierlich überprüft und angepasst werden, mit klaren nationalen Regeln und technischer Unterstützung.

Was das für Patientinnen bedeutet

Die Ergebnisse deuten darauf hin, dass ein sorgfältig eingeführtes KI-System nationalen Brustkrebs-Screeningprogrammen helfen könnte, schwerwiegendere Tumore früher zu erkennen, insbesondere bei Frauen, die zum ersten Mal zur Mammographie kommen, und gleichzeitig die Arbeitsbelastung für überlastete Fachkräfte zu verringern. Die Autoren betonen jedoch, dass Erfolg mehr erfordert als einen genauen Algorithmus. Die Gesundheitsdienste werden fortlaufende Kalibrierung, rigoroses Monitoring auf Drift und Bias, aufgerüstete IT-Infrastruktur und eine durchdachte Integration in bestehende menschliche Arbeitsabläufe benötigen. Mit diesen Schutzmaßnahmen könnte die KI zu einer vertrauenswürdigen zusätzlichen Leserin/zu einem vertrauenswürdigen zusätzlichen Leser werden, die sowohl die Effizienz als auch die Gerechtigkeit des Brustkrebs-Screenings verbessert, anstatt eine Blackbox zu sein, die neue Risiken schafft.

Zitation: Kelly, C.J., Wilson, M., Warren, L.M. et al. Diagnostic accuracy, fairness and clinical implementation of AI for breast cancer screening: results of multicenter retrospective and prospective technical feasibility studies. Nat Cancer 7, 494–506 (2026). https://doi.org/10.1038/s43018-026-01127-0

Schlüsselwörter: Brustkrebs-Screening, medizinische künstliche Intelligenz, Mammographie, Gerechtigkeit im Gesundheitswesen, klinische Implementierung