Clear Sky Science · de

Die Anwendung vortrainierter großer visuell‑sprachlicher Modelle für die Vorabdiagnose von weißlichen Plaques in der Speiseröhre bei flächendeckenden Vorsorgeuntersuchungen auf Speiseröhrenkrebs

2026-01-28 · Zurück zur Übersicht

Warum diese Stellen im Rachen wichtig sind

Bei routinemäßigen Magen‑ und Rachenuntersuchungen sehen Ärztinnen und Ärzte häufig kleine weiße Flecken in der Speiseröhre. Die meisten sind harmlos, doch einige deuten auf frühen Krebs hin, der heilbar ist, wenn er rechtzeitig erkannt wird. In stark frequentierten Screening‑Programmen ist es selbst für Expertinnen und Experten schwierig, diese einander ähnelnden Läsionen auseinanderzuhalten. Diese Studie untersucht, ob ein fortschrittliches künstliches Intelligenz‑System Ärztinnen und Ärzten helfen kann, gefährliche Flecken schnell von unbedenklichen zu unterscheiden und zudem in verständlicher Sprache zu beschreiben, was es sieht.

Häufige weiße Flecken mit sehr unterschiedlichem Risiko

Weiße Plaques in der Speiseröhre sind überraschend verbreitet: In diesem großen Screening‑Programm hatte mehr als jeder fünfte Patient solche Veränderungen. Diese Plaques können jedoch sehr unterschiedliche Ursachen haben. Manche sind frühe Speiseröhrenkarzinome, die als leicht erhabene, raue weiße Bereiche erscheinen und sich nicht abwischen lassen. Andere entstehen durch Pilzinfektionen, die weiche weißliche Beläge bilden, die sich ablösen und darunterliegendes, rohes Gewebe freilegen können. Wieder andere sind winzige gutartige Wucherungen (Papillome) oder flache, körnige Flecken namens glykogenhaltige Acanthose, die in der Regel harmlos sind und sich für eine einfache Nachbeobachtung eignen. Da die Behandlung von einer sofortigen Biopsie bis zur einfachen Beobachtung reichen kann, ist die erste visuelle Einschätzung entscheidend.

Endoskopbilder in intelligente Empfehlungen verwandeln

Die Forscherinnen und Forscher entwickelten ein computerunterstütztes Diagnosesystem auf Basis eines leistungsfähigen Visions‑Sprach‑Modells namens BLIP, das ursprünglich mit riesigen Sammlungen von Bildern und Texten vortrainiert wurde. Sie fütterten das System mit 13.922 endoskopischen Bildern von mehr als 2.000 Patientinnen und Patienten, die die vier Hauptursachen weißlicher Plaques abdeckten und sowohl Standard‑Weißlichtaufnahmen als auch einen speziellen Kontrastmodus namens Narrow‑Band‑Imaging verwendeten. Anders als frühere Werkzeuge, die lediglich eine Krankheitsbezeichnung zuweisen, erledigt dieses System zwei Aufgaben gleichzeitig: Es sagt voraus, welche der vier Bedingungen vorliegt, und erzeugt eine kurze schriftliche Beschreibung dessen, was es im Bild „sieht“, etwa Lage und Aussehen der Plaques.

Der KI mehr beibringen mit begrenzten medizinischen Daten

Medizinische Bilddatensätze sind im Vergleich zu alltäglichen Fotoarchiven klein, was die Leistung von KI einschränken kann. Um dem entgegenzuwirken, ergänzte das Team das BLIP‑Modell um spezielle „positive‑incentive‑noise“‑Module. Einfach ausgedrückt erzeugen diese Module sanfte, datengestützte Variationen jedes Bildes und der internen Merkmalskarten des Modells, wodurch das System dazu angeregt wird, robustere Muster zu lernen, ohne von zufälligen Veränderungen überwältigt zu werden. Anschließend wurde das Modell feinabgestimmt, sodass seine Bildverständnisfähigkeiten eng mit den Expertendiagnosen und Textbeschreibungen erfahrener Endoskopikerinnen und Endoskopiker korrelierten.

Schlägt sowohl konkurrierende Modelle als auch menschliche Expertinnen und Experten

Im Test übertraf das neue System mehrere führende rein bildbasierte KI‑Modelle in allen wichtigen Leistungskennzahlen für alle vier Erkrankungen und in beiden Endoskopie‑Modi. Außerdem übertraf es ein spezialisiertes medizinisches Visions‑Sprach‑Modell namens LLaVA‑Med bei der Aufgabe, in seinen Textbeschreibungen präzise diagnostische Schlüsselwörter zu generieren. In einem direkten „Lesewettbewerb“ gegen vier Endoskopikerinnen und Endoskopiker – zwei Senior‑ und zwei Juniorärzte – erreichte die KI eine höhere Gesamtgenauigkeit bei der Bildklassifizierung. Besonders auffällig war ihre Überlegenheit beim Erkennen von frühem Speiseröhrenkrebs, vor allem hinsichtlich des Rückrufs (Recall): Sie verpasste weniger Krebsfälle, während sie eine solide Präzision beibehielt.

Was das für künftige Untersuchungen bedeuten könnte

Die Studie legt nahe, dass sorgfältig angepasste Visions‑Sprach‑KI ein wertvoller Assistent in flächendeckenden Screening‑Programmen werden könnte. Ein solches System könnte verdächtige weiße Plaques in Echtzeit markieren, verlässlichere Erkennung früher Krebserkrankungen ermöglichen und viele Patientinnen und Patienten vor unnötigen Biopsien bewahren, indem es Ärzten beruhigende Hinweise gibt, wenn eine Läsion harmlos erscheint. Die Arbeit muss noch an Endoskopievideos, an selteneren Arten weißlicher Plaques und an mehreren Kliniken getestet werden, doch sie weist in Richtung einer Zukunft, in der KI nicht nur Probleme in medizinischen Bildern erkennt, sondern ihre Schlussfolgerungen auch in Sprache erklärt, die schnellere und konsistentere klinische Entscheidungen unterstützt.

Zitation: Li, Y., Li, X., Zhang, D. et al. The application of pre-trained large visual-language models for preliminary diagnosis of esophageal whitish plaques in large-scale esophageal cancer screening. npj Precis. Onc. 10, 94 (2026). https://doi.org/10.1038/s41698-026-01301-8

Schlüsselwörter: Screening auf Speiseröhrenkrebs, Endoskopie‑KI, Visions‑Sprach‑Modelle, computerassistierte Diagnostik, weißliche Plaques in der Speiseröhre