Clear Sky Science · de
Künstliche Intelligenz-gestützte Ultraschalldiagnostik und Stratifizierung follikulärer Schilddrüsenneoplasien: eine multizentrische Studie
Warum das für Menschen mit Schilddrüsenknoten wichtig ist
Viele Menschen entdecken Schilddrüsenknoten bei Routineuntersuchungen und verbringen dann nervenaufreibende Wochen in der Ungewissheit, ob es sich um eine harmlose Veränderung oder um Krebs handelt. Diese Studie untersucht, ob künstliche Intelligenz (KI) Ultraschallbilder einer bestimmten Gruppe von Schilddrüsenveränderungen – den follikulären Neoplasien – genauer lesen kann als menschliche Expertinnen und Experten. Das könnte Patientinnen und Patienten helfen, unnötige Operationen zu vermeiden und gleichzeitig sicherzustellen, dass gefährliche Tumoren nicht übersehen werden.
Wenn harmlos und gefährlich gleich aussehen
Follikuläre Schilddrüsentumoren treten hauptsächlich in zwei Formen auf: Adenome, die gutartig sind, und Karzinome, die Blutgefäße infiltrieren und metastasieren können. Sowohl mikroskopisch als auch in Ultraschallaufnahmen sehen diese Tumoren oft verblüffend ähnlich aus. Selbst erfahrene Radiologinnen, Radiologen und Pathologinnen und Pathologen haben häufig Schwierigkeiten, sie vor einer Operation zu unterscheiden. Das führt dazu, dass viele Patientinnen und Patienten zur sicheren Diagnose die Hälfte oder die gesamte Schilddrüse entfernt bekommen. Die Folgen sind erheblich: Einige Karzinome sind nur schwach invasiv und haben eine gute Prognose, andere dagegen aggressiver, sodass die genaue Bestimmung des Typs entscheidend für das Ausmaß der Operation und die Nachsorge ist.

Dem Computer beibringen, Schilddrüsenultraschall zu lesen
Die Forschenden stellten eine der bislang größten Sammlungen von Ultraschallbildern follikulärer Schilddrüsentumoren zusammen, basierend auf 2.567 Patientinnen und Patienten aus 31 Krankenhäusern in China. Für jeden Knoten markierten Radiologinnen und Radiologen den relevanten Bereich auf den üblichen schwarz-weißen Ultraschallbildern. Ein modernes Deep-Learning-System auf Basis einer visuellen Architektur namens ConvNeXt wurde anschließend in mehreren Schritten trainiert. Zuerst lernte es, gutartige Adenome von Karzinomen zu unterscheiden. Anschließend sortierte es unter den Karzinomen die weniger invasiven von den stärker invasiven Subtypen, die ungefähr den Kategorien niedrig-, mittel- und hohes Risiko entsprechen. Das Team testete verschiedene Arten von Ultraschallinformationen und fand heraus, dass einfache B‑Mode-Bilder – standardmäßige Graustufenaufnahmen – für die KI verlässlicher waren als farbkodierte Blutflussbilder, deren Qualität zu stark variierte.
Wie gut die KI in der Praxis abschnitt
Um zu prüfen, ob das System auch außerhalb der Labors, in denen es entwickelt wurde, Bestand hat, testeten die Autorinnen und Autoren es an drei unabhängigen Patientengruppen aus anderen Krankenhäusern, jeweils mit unterschiedlicher Mischung aus benignen und malignen Tumoren. In diesen Zentren zeigte die KI durchgehend starke Leistungen bei der Trennung von Adenomen und Karzinomen, mit Genauigkeitswerten (AUC) von etwa 0,82 bis 0,85. Auch bei der anspruchsvolleren Aufgabe – Einordnung der Tumoren in drei Gruppen: gutartig, minimal invasives Karzinom und stärker invasives Karzinom – erzielte das System durchgehend hohe Werte. Wichtig ist, dass das Modell bei Männern und Frauen gleichermaßen gut funktionierte, bei verschiedenen chirurgischen Vorgehensweisen und in den meisten geografischen Regionen ähnlich zuverlässig war, was darauf hindeutet, dass es in einem breiten klinischen Umfeld nützlich sein könnte.
Zusammenarbeiten mit Radiologinnen und Radiologen, nicht ersetzen
Die Studie stellte auch eine praktische Frage: Hilft diese KI den Ärztinnen und Ärzten tatsächlich, bessere Entscheidungen zu treffen? Wenn Radiologinnen und Radiologen nur etablierte Scoring-Systeme für den Schilddrüsenultraschall verwendeten, war ihre Leistung bei der Identifikation von Karzinomen deutlich schlechter als die der KI. Sobald ihnen die Ausgabe der KI und deren hervorgehobene „Attention-Maps“ auf denselben Bildern gezeigt wurden, stieg ihre Genauigkeit und erreichte in manchen Fällen nahezu das Niveau des Computers. Am meisten profitierten jüngere Ärztinnen und Ärzte, doch auch erfahrene Spezialistinnen und Spezialisten verbesserten ihre Leistung. Die Analyse der Fälle, in denen die KI Fehler machte, offenbarte zugleich eine Schwäche: In diesen Bildern konzentrierte sich das System häufig auf Bereiche außerhalb des eigentlichen Tumors statt auf die verdächtigen inneren Merkmale, was Hinweise dafür liefert, wo weitere Verbesserungen nötig sind.

Was das für Patientinnen und Patienten bedeuten könnte
Einfach ausgedrückt deutet diese Arbeit darauf hin, dass eine gut trainierte KI als ein zweites, sehr zuverlässiges Augenpaar dienen kann, wenn Ärztinnen und Ärzte Schilddrüsenultraschallbilder beurteilen. Für Patientinnen und Patienten mit follikulären Schilddrüsenknoten könnte ein solches Werkzeug die Chancen erhöhen, dass ein gefährliches Karzinom vor einer Operation erkannt wird, und gleichzeitig die Wahrscheinlichkeit verringern, dass ein gutartiges Adenom zu einer übermäßig aggressiven Behandlung führt. Das Modell ist nicht bereit, die fachliche Beurteilung zu ersetzen, und muss noch in anderen Ländern und vielfältigeren Patientengruppen geprüft werden. Eingebettet in ein Ultraschallarbeitsplatzsystem oder einen Scanner könnte es jedoch bald dazu beitragen, Operationen und Nachsorge individueller an das tatsächliche Risiko anzupassen und einen bislang unsicheren Bereich der Schilddrüsendiagnostik klarer zu machen.
Zitation: Li, J., Zhang, H., Zheng, H. et al. Artificial intelligence-enabled ultrasound diagnosis and stratification of follicular thyroid neoplasms: a multi-center study. npj Digit. Med. 9, 313 (2026). https://doi.org/10.1038/s41746-026-02489-6
Schlüsselwörter: Schilddrüsenultraschall, follikuläre Neoplasie, künstliche Intelligenz, Krebsrisiko-Stratifizierung, medizinische Bildgebung