Clear Sky Science · de

Subgruppen-Performance eines kommerziellen Modells zur digitalen Brusttomo­synthese für die Brustkrebs­erkennung

· Zurück zur Übersicht

Warum das für Frauen und Familien wichtig ist

Brustkrebs-Screenings retten Leben, aber kein Test ist perfekt. Ärztinnen und Ärzte setzen zunehmend künstliche Intelligenz (KI) ein, um komplexe 3D-Bruströntgenbilder zu bewerten. Diese Studie untersuchte genau, wie ein weit verbreitetes KI-System für verschiedene Frauengruppen und unterschiedliche Befundarten abschneidet und zeigte, wo das Werkzeug gut funktioniert und wo es Schwächen hat.

Figure 1. Wie KI das 3D-Brustscreening unterstützt, aber einige subtile Früherkrankungen weiterhin verpasst
Figure 1. Wie KI das 3D-Brustscreening unterstützt, aber einige subtile Früherkrankungen weiterhin verpasst

Ein genauerer Blick auf eine neue Art von Mammographie

Traditionelle Mammographien sind flache, zweidimensionale Röntgenaufnahmen. Viele Praxen verwenden inzwischen digitale Brusttomosynthese, einen 3D‑ähnlichen Scan, der aus vielen dünnen Schichten der Brust rekonstruiert wird. Er kann Krebserkrankungen aufdecken, die in überlappendem Gewebe verborgen wären, insbesondere in dichtem Brustgewebe. Die Bilder benötigen jedoch länger zur Auswertung und können winzige Kalziumablagerungen, die auf frühe Erkrankung hinweisen, weiterhin übersehen. Aus diesem Grund haben Firmen KI‑Werkzeuge entwickelt, die verdächtige Bereiche für Radiologen markieren. Bislang konzentrierten sich die meisten Bewertungen dieser Werkzeuge auf die Gesamtgenauigkeit, nicht darauf, wie sie sich bei bestimmten Patientengruppen oder Tumortypen verhalten.

Großer Real‑World‑Test eines KI‑Assistenten

Forscher der Emory University untersuchten ein kommerzielles KI‑System namens INSIGHT DBT, das bei 3D‑Brustaufnahmen aus mehr als 167.000 Screening‑Untersuchungen bei über 61.000 Frauen eingesetzt wurde. Sie verglichen die KI‑Scores mit den tatsächlichen Ergebnissen und separierten eindeutig negative Befunde, gutartige Biopsien und nachgewiesene Krebserkrankungen. Die zentrale Frage war, wie gut die KI Krebserkrankungen, die während routinemäßiger Screenings entdeckt wurden, von nicht‑krebsartigen Untersuchungen unterscheiden kann. Über alle Frauen hinweg zeigte die KI eine starke Leistung, indem sie krebsverdächtige und nicht krebsverdächtige Aufnahmen meist korrekt einordnete und die Ergebnisse der ursprünglichen Zulassungsprüfung bestätigte. Die Leistung war über Alters‑, Rassen‑ und Ethniegruppen hinweg ähnlich — ein wichtiges Ergebnis für Gleichbehandlung in der Versorgung.

Worin die KI glänzt und worin sie schwächelt

Bei tieferer Analyse traten deutliche Muster hervor. Die KI war am besten darin, invasive Krebserkrankungen zu erkennen, die feste Knoten bilden oder sichtbare Verzerrungen im Brustgewebe verursachen; die meisten dieser Fälle wurden korrekt markiert. Weniger zuverlässig war sie bei Krebserkrankungen, die innerhalb der Milchgänge verbleiben (in situ‑Erkrankungen), sowie bei Tumoren, die sich hauptsächlich als feine Cluster winziger Kalziumablagerungen zeigen. Bei diesen frühen Läsionen verfehlte das System fast die Hälfte, und die Gesamtgenauigkeit sank. Dichteres Brustgewebe verringerte die Leistung ebenfalls moderat, wahrscheinlich weil dichtes Gewebe subtile Zeichen verdecken kann.

Figure 2. Wie ein KI-System 3D-Brustbilder unterschiedlich für Massen, Gewebeverzerrungen und winzige Kalziumcluster liest
Figure 2. Wie ein KI-System 3D-Brustbilder unterschiedlich für Massen, Gewebeverzerrungen und winzige Kalziumcluster liest

Was die Score‑Muster offenbaren

Indem die Forschenden die volle Bandbreite der KI‑Scores betrachteten statt nur Ja‑/Nein‑Entscheidungen, zeigte sich, dass Untersuchungen mit besorgniserregenderer Pathologie tendenziell höhere Scores erhielten. Gutartige und niedrig‑riskante Befunde wurden meist niedrig bewertet, während invasive Karzinome am oberen Ende konzentriert waren. Dennoch erhielten einige nicht‑krebsartige Verzerrungen hohe Scores, was zu Fehlalarmen führte, und einige seltene Subtypen invasiver Karzinome sowie in situ‑Läsionen wurden zu niedrig bewertet. Die KI vergab sogar bei etwa einem Drittel der zwischen den regulären Screenings auftretenden Krebserkrankungen hohe Scores, was darauf hindeutet, dass sie manchmal Hinweise bemerkt, die Menschen übersehen — die reale Auswirkung dieses Befunds bleibt jedoch unklar.

Folgen für Patientinnen und Kliniker

Für Laien lautet die Quintessenz: Dieses KI‑Werkzeug kann Radiologinnen und Radiologen bei der Auswertung komplexer 3D‑Brustaufnahmen sinnvoll unterstützen, ohne offensichtliche Unterschiede zwischen den wichtigsten demografischen Gruppen. Es ist jedoch kein eigenständiger Krebsdetektor. Bei den frühesten, kalkbasierten Krebsformen und bei sehr dichtem Brustgewebe ist es weniger zuverlässig, und es kann weiterhin in einigen gutartigen Fällen unnötige Nachuntersuchungen auslösen. Die Autoren betonen, dass das Verständnis dieser Stärken und blinden Flecken entscheidend ist, bevor man sich im täglichen Screening auf KI verlässt, damit Ärztinnen und Ärzte sie als sorgfältigen Partner statt als Ersatz nutzen können.

Zitation: Brown-Mulry, B., Isaac, R.S., Lee, S.H. et al. Subgroup performance of a commercial digital breast tomosynthesis model for breast cancer detection. Nat Commun 17, 4249 (2026). https://doi.org/10.1038/s41467-026-70637-3

Schlüsselwörter: Brustkrebs-Screening, digitale Brusttomosynthese, medizinische KI, Mammographie, DCIS