Clear Sky Science · pl

Model vision transformer do wykrywania jaskry na podstawie fotografii tarczy nerwu wzrokowego

2026-03-24 · Powrót do spisu

Dlaczego to ma znaczenie dla codziennego widzenia

Jaskra jest jedną z głównych przyczyn trwałej ślepoty na świecie, a jednak często rozwija się bezobjawowo, dopóki wzrok nie zostanie poważnie uszkodzony. Dobrą wiadomością jest to, że proste zdjęcia tylnej części oka są powszechnie dostępne, nawet w placówkach z ograniczonym sprzętem. W tym badaniu zbadano, czy zaawansowany program komputerowy może obejrzeć takie zdjęcia i pewnie wychwycić wczesne znaki jaskry, na długo zanim większość osób zauważy problemy.

Cichy zagrożenie dla wzroku

Jaskra stopniowo uszkadza nerw wzrokowy, pęczek włókien przenoszących sygnały wzrokowe z oka do mózgu. Lekarze szukają zmian w tarczy nerwu wzrokowego, miejscu, gdzie nerw opuszcza oko, ale interpretacja tych subtelnych kształtów jest trudna i nawet eksperci często się nie zgadzają. W wielu regionach świata brakuje też wystarczającej liczby specjalistów okulistów do badań przesiewowych całych populacji. W efekcie uważa się, że około połowy przypadków jaskry na świecie pozostaje nierozpoznanych, szczególnie w krajach o niskich i średnich dochodach, a wiele osób dowiaduje się o chorobie dopiero po znaczącej utracie wzroku.

Nauczanie komputera rozpoznawania zdjęć oka

Badacze zgromadzili ponad tysiąc fotografii tarczy nerwu wzrokowego od pacjentów z wczesną jaskrą leczonych w amerykańskim ośrodku okulistycznym oraz setki zdjęć zdrowych oczu z dwóch publicznych baz obrazów. Specjaliści od jaskry ocenili każde zdjęcie jako jaskrowe lub zdrowe wyłącznie na podstawie wyglądu nerwu wzrokowego, wyłączając oczy z innymi schorzeniami siatkówki. Zespół wykadrował każde zdjęcie tak, aby tarcza zajmowała podobną część kadru, i zastosował staranną kontrolę jakości oraz realistyczne modyfikacje obrazu, takie jak niewielkie obroty, przybliżenia i rozmycie, aby powiększyć zbiór treningowy przy zachowaniu zgodności z warunkami świata rzeczywistego.

Figure 1. System SI ocenia proste zdjęcia oka, rozróżniając zdrowe nerwy wzrokowe od tych uszkodzonych przez jaskrę jednym spojrzeniem.

Nowy rodzaj sieci neuronowej

Zamiast polegać na bardziej tradycyjnych systemach analizy obrazów, zespół zbudował model w oparciu o „vision transformer”, nowszą rodzinę narzędzi uczenia głębokiego pierwotnie opracowanych do rozpoznawania obiektów na zwykłych zdjęciach. Model dzieli każde zdjęcie tarczy na wiele małych łat, reprezentuje każdą łatkę jako token danych, a następnie używa warstw bloków uwagi, by ocenić, jak różne obszary tarczy odnoszą się do siebie. Sieć zwraca wynik w skali od 0 do 1 odzwierciedlający prawdopodobieństwo wystąpienia jaskry — wyniki równe lub powyżej 0,5 traktowano jako pozytywne. Aby w pełni wykorzystać dostępne dane, badacze stosowali zrównoważone próbkowanie, ważone funkcje straty i walidację krzyżową, a także porównali transformera z silną siecią konwolucyjną EfficientNet.

Figure 2. Zdjęcie oka jest dzielone na łatki, które przechodzą przez wielowarstwowe przetwarzanie, by odróżnić zdrowe tarcze od tych uszkodzonych.

Jak dobrze system wykrywał wczesną chorobę

Testowany na obrazach, których wcześniej nie widział, model vision transformer niemal doskonale rozdzielił oczy jaskrowe od zdrowych. Jego główny miernik wydajności — pole pod krzywą ROC — wyniósł 1,00 na zestawie testowym, z dokładnością około 99 procent, bardzo wysoką czułością i bardzo wysoką specyficznością. W praktyce system prawie nie przeoczył przypadków jaskry i niewiele zdrowych oczu oznaczył jako chore. Kiedy później badacze poddali model próbie prawie tysiąca oczu z umiarkowaną do zaawansowanej jaskrą, poprawnie zidentyfikował wszystkie poza jednym. Transformer przewyższył także podejście oparte na EfficientNet, które wykazywało niższą dokładność oraz więcej fałszywych alarmów i przeoczeń.

Co to mogłoby znaczyć dla opieki okulistycznej

Ponieważ model działa na standardowych fotografiach tarczy nerwu wzrokowego i był trenowany na rasowo zróżnicowanej grupie pacjentów, daje realistyczny wgląd w to, jak sztuczna inteligencja mogłaby pomóc w badaniach przesiewowych pod kątem jaskry w wielu częściach świata. Autorzy zastrzegają, że ich badanie miało mniejszy ogólny rozmiar próbki niż niektóre inne prace i korzystało z zewnętrznych zbiorów danych dla wielu zdrowych kontrolnych obrazów, co mogło wprowadzić ukryte uprzedzenia. Twierdzą, że ważnymi kolejnych krokami będą większe, bardziej zróżnicowane zbiory obrazów, obrazy wykonywane przenośnymi kamerami oraz uwzględnienie podstawowych informacji o pacjencie, takich jak wiek czy stopień krótkowzroczności. Mimo to wyniki sugerują, że inteligentna analiza prostych zdjęć oka mogłaby stać się opłacalnym sposobem wykrywania jaskry we wczesnym stadium i zmniejszania uniknionej ślepoty, szczególnie tam, gdzie brakuje specjalistów.

Wniosek dla czytelników

Praca ta pokazuje, że zaawansowany model komputerowy może nauczyć się rozpoznawać wczesne ślady jaskry na rutynowych zdjęciach nerwu wzrokowego z bardzo wysoką dokładnością. Choć konieczne są dalsze testy w warunkach klinicznych, takie narzędzia pewnego dnia mogłyby pomóc lekarzom szybko sortować dużą liczbę pacjentów na tych, którzy potrzebują pilnej opieki okulistycznej, i na tych, którzy jej nie potrzebują, ułatwiając wczesną ochronę wzroku na całym świecie.

Cytowanie: Bouris, E., Leyva, B.K., Odugbo, O.P. et al. A vision transformer model for the detection of glaucoma from optic disc photographs. Sci Rep 16, 14831 (2026). https://doi.org/10.1038/s41598-026-44662-7

Słowa kluczowe: badania przesiewowe jaskry, fotografia tarczy nerwu wzrokowego, głębokie uczenie, vision transformer, zdrowie oczu