Clear Sky Science · de

Ein Vision-Transformer-Modell zur Erkennung von Glaukom auf Optikscheiben-Fotografien

2026-03-24 · Zurück zur Übersicht

Warum das für die alltägliche Sehkraft wichtig ist

Glaukom gehört weltweit zu den Hauptursachen für bleibende Erblindung, zeigt sich aber oft ohne Symptome, bis die Sehkraft bereits stark geschädigt ist. Die gute Nachricht: Einfache Fotografien des Augenhintergrunds sind weit verbreitet, selbst in Kliniken mit begrenzter Ausstattung. Diese Studie untersucht, ob ein fortgeschrittenes Computerprogramm diese Fotos ansehen und zuverlässig frühe Anzeichen von Glaukom melden kann, lange bevor die meisten Menschen Probleme bemerken würden.

Eine stille Bedrohung der Sehkraft

Glaukom schädigt langsam den Sehnerv, das Faserbündel, das visuelle Signale vom Auge zum Gehirn leitet. Ärzte suchen nach Veränderungen am Sehnervenkopf, dem Austrittspunkt dieses Nervs aus dem Auge, doch diese feinen Formänderungen sind schwer zu interpretieren und selbst Expertinnen und Experten sind sich oft uneins. In vielen Regionen fehlen zudem ausreichend Augenfachkräfte, um breite Bevölkerungsgruppen zu screenen. Infolgedessen wird weltweit geschätzt, dass etwa die Hälfte der Glaukomfälle unentdeckt bleibt, besonders in Ländern mit niedrigem und mittlerem Einkommen, und viele Betroffene erfahren erst nach erheblichem Sehverlust von ihrer Erkrankung.

Dem Computer beibringen, Augenfotos zu lesen

Die Forschenden sammelten mehr als tausend Fotografien des Sehnervenkopfes von Menschen mit frühem Glaukom, die in einem US-amerikanischen Augenzentrum behandelt wurden, sowie Hunderte von Fotos gesunder Augen aus zwei öffentlichen Bilddatenbanken. Glaukomspezialisten beurteilten jedes Bild als glaukomatös oder gesund, ausschließlich basierend auf dem Aussehen des Sehnervs; Augen mit anderen Netzhauterkrankungen wurden ausgeschlossen. Das Team beschritt jedes Bild so zurecht, dass der Sehnervenkopf einen ähnlichen Anteil des Bildausschnitts einnahm, und verwendete sorgfältige Qualitätsprüfungen sowie realistische Bildveränderungen wie leichte Drehungen, Zooms und Unschärfen, um den Trainingssatz zu erweitern und zugleich die Bedingungen der realen Welt beizubehalten.

Figure 1. Ein KI-System wertet einfache Augenfotos aus, um gesunde Sehnerven von glaukomatösen auf einen Blick zu unterscheiden.

Eine neue Art neuronales Netzwerk

Statt sich auf traditionellere Bildanalyseverfahren zu stützen, bauten die Forschenden ihr Modell auf einem „Vision Transformer“ auf, einer neueren Familie von Deep-Learning-Werkzeugen, die ursprünglich für die Erkennung von Objekten in Alltagsfotos entwickelt wurden. Dieses Modell zerteilt jedes Sehnervenkopf-Bild in viele kleine Patches, repräsentiert jedes Patch als Datentoken und nutzt dann Schichten von Attention-Blöcken, um zu gewichten, wie verschiedene Bereiche des Kopfes zueinander in Beziehung stehen. Das Netzwerk liefert einen Score zwischen 0 und 1, der widerspiegelt, wie wahrscheinlich ein Glaukom vorliegt; Werte von 0,5 oder höher gelten als positiv. Um die verfügbaren Daten optimal zu nutzen, verwendeten die Forschenden balanciertes Sampling, gewichtete Loss-Funktionen und Kreuzvalidierung und verglichen den Transformer mit einem starken konvolutionalen Netzwerk namens EfficientNet.

Figure 2. Das Augenfoto wird in Patches geteilt, die durch geschichtete Verarbeitung laufen, um gesunde von geschädigten Sehnerven zu trennen.

Wie gut das System frühe Erkrankung sah

Als das Modell mit zuvor ungesehenen Bildern getestet wurde, trennte der Vision Transformer glaukomatöse von gesunden Augen nahezu perfekt. Maßgeblich war die Fläche unter der Receiver-Operating-Characteristic-Kurve, die im Testset 1,00 betrug, bei einer Genauigkeit von rund 99 Prozent, sehr hoher Sensitivität und sehr hoher Spezifität. Praktisch bedeutete das, dass das System nahezu keine Glaukomfälle übersah und nur sehr wenige gesunde Augen fälschlich als krank einstufte. Als die Forschenden das Modell später mit fast tausend Augen mit mittelschwerem bis fortgeschrittenem Glaukom prüften, identifizierte es alle bis auf eines korrekt. Der Transformer übertraf außerdem den EfficientNet-Ansatz, der geringere Genauigkeit sowie mehr Fehlalarme und Fehlklassifikationen zeigte.

Was das für die Augenversorgung bedeuten könnte

Da das Modell mit Standardfotos des Sehnervenkopfes arbeitet und auf einer rassisch diversen Patientengruppe trainiert wurde, liefert es einen realistischen Ausblick darauf, wie künstliche Intelligenz beim Glaukom-Screening in vielen Weltregionen helfen könnte. Die Autorinnen und Autoren weisen darauf hin, dass ihre Studie eine kleinere Stichprobengröße aufwies als manche andere Arbeiten und für viele der gesunden Kontrollen auf externe Datensätze zurückgriff, was versteckte Verzerrungen einbringen könnte. Sie argumentieren, dass größere, vielfältigere Bildsammlungen, Aufnahmen mit tragbaren Kameras und die Einbeziehung einfacher Patienteninformationen wie Alter oder Stärke der Kurzsichtigkeit wichtige nächste Schritte wären. Dennoch legen ihre Ergebnisse nahe, dass intelligente Auswertung einfacher Augenfotos eine kosteneffiziente Möglichkeit werden könnte, Glaukom früh zu erkennen und vermeidbare Erblindung zu reduzieren, besonders dort, wo Spezialistinnen und Spezialisten knapp sind.

Kernaussage für Leserinnen und Leser

Diese Arbeit zeigt, dass ein fortgeschrittenes Computermodell lernen kann, die frühen Fingerabdrücke des Glaukoms auf Routinerfotografien des Sehnervs mit sehr hoher Genauigkeit zu erkennen. Obwohl weitere Tests in klinischen Alltagsbedingungen nötig sind, könnten solche Werkzeuge eines Tages Ärztinnen und Ärzten helfen, große Patientenzahlen schnell in solche zu sortieren, die dringende Augenversorgung benötigen, und solche, die keine benötigen, und so frühzeitigen Schutz der Sehkraft weltweit zugänglicher zu machen.

Zitation: Bouris, E., Leyva, B.K., Odugbo, O.P. et al. A vision transformer model for the detection of glaucoma from optic disc photographs. Sci Rep 16, 14831 (2026). https://doi.org/10.1038/s41598-026-44662-7

Schlüsselwörter: Glaukom-Screening, Fotografie des Sehnervenkopfes, Deep Learning, Vision Transformer, Augengesundheit