Clear Sky Science · pl

Efficient SqueezeViT: Lekka ramka vision transformer do klasyfikacji zdjęć rentgenowskich klatki piersiowej

2026-04-09 · Powrót do spisu

Dlaczego szybsze czytanie zdjęć rentgenowskich ma znaczenie

Zdjęcia rentgenowskie klatki piersiowej są jednym z najczęstszych sposobów, w jaki lekarze poszukują problemów z płucami i sercem, od zapalenia płuc po gruźlicę. W zatłoczonych szpitalach lub małych przychodniach z ograniczonym dostępem do wydajnych komputerów trudno jest uruchamiać duże narzędzia sztucznej inteligencji, które mogłyby pomagać w szybszym odczytywaniu tych obrazów. W tym badaniu przedstawiono nowy zwarty model AI, nazwany SqueezeViT, zaprojektowany do wykrywania chorób klatki piersiowej na zdjęciach rentgenowskich przy znacznie mniejszym zużyciu mocy obliczeniowej niż typowe systemy, co czyni go bardziej praktycznym w opiece klinicznej.

Nowy sposób na zmniejszenie rozmiarów inteligentnych czytników obrazów

Współczesne narzędzia rozpoznawania obrazów często opierają się na dwóch koncepcjach. Splotowe sieci neuronowe (CNN) dobrze wychwytują drobne szczegóły w małych rejonach obrazu, podczas gdy modele typu transformer lepiej rozumieją całościowy kontekst całego skanu. Standardowe vision transformery są jednak ciężkie i powolne. Autorzy zaprojektowali SqueezeViT tak, by zachować szeroki zasięg widzenia transformerów, ale „wyciskać” ilość informacji przetwarzanej na każdym etapie. Ich celem jest zachowanie fragmentów obrazu istotnych dla diagnozy przy jednoczesnym ograniczeniu nadmiarowych obliczeń, aby model mógł działać na skromnym sprzęcie.

Figure 1. Zwarta sztuczna inteligencja pomaga dokładnie klasyfikować zdjęcia rentgenowskie klatki piersiowej na urządzeniach medycznych o niskiej mocy obliczeniowej.

Jak zwarty model widzi płuca i serce

SqueezeViT łączy dwa elementy konstrukcyjne, aby efektywnie przetwarzać zdjęcia klatki piersiowej. Pierwszy, nazwany blokiem Fire, działa jak inteligentny filtr kompresujący informacje z obrazu do mniejszego zestawu cech, a następnie ponownie je rozprzestrzeniający, aby uwypuklić wzorce takie jak krawędzie i tekstury powiązane z chorobami. Drugi, zwany Translution Block, dzieli obraz na małe łatki i stosuje mechanizm uwagi, co pozwala modelowi powiązać sygnały z odległych części płuc lub serca. Używając nieco większych łatek niż wiele wcześniejszych projektów, model zmniejsza ilość obliczeń wymaganych przez krok uwagi, jednocześnie nadal wychwytując, jak zmiany w jednej części klatki wpływają na inne.

Testy systemu

Aby ocenić praktyczną skuteczność SqueezeViT, badacze przetestowali go na dwóch dużych publicznych zbiorach zdjęć rentgenowskich klatki piersiowej: zestawie NIH ChestX-ray14 oraz zbiorze CheXpert. Razem obejmują one setki tysięcy obrazów oznaczonych pod kątem różnych schorzeń, takich jak kardiomegalia, obrzęk, zapalenie płuc i guzki płucne. Zespół trenował SqueezeViT od podstaw i porównał jego zdolność rozróżniania przypadków chorych od zdrowych z dobrze znanymi modelami uczenia głębokiego, w tym ciężkimi jak ResNet i DenseNet oraz lżejszymi opcjami takimi jak MobileNet, ShuffleNet, SqueezeNet i MobileViT. Skupili się na polu pod krzywą ROC (AUC), mierze nagradzającej modele za poprawne upożądkowanie przypadków nieprawidłowych przed normalnymi przy różnych progach decyzyjnych.

Figure 2. Lekka sztuczna inteligencja kondensuje informacje obrazowe, aby krok po kroku wykrywać problemy z płucami na zdjęciach rentgenowskich.

Równowaga między prędkością, rozmiarem a dokładnością

Wyniki pokazują, że SqueezeViT osiąga dokładność porównywalną z, a w kilku zadaniach lepszą niż, znacznie większe modele przy jednoczesnym istotnym zmniejszeniu rozmiaru. Model wykorzystuje około pół miliona trenowalnych parametrów, zmniejszając ich liczbę o ponad 40 procent w porównaniu z MobileViT i o ponad 90 procent w porównaniu z niektórymi największymi modelami bazowymi. Jego obciążenie obliczeniowe, zużycie pamięci i opóźnienia przetwarzania zarówno na procesorach graficznych, jak i standardowych CPU są zredukowane, co pozwala analizować obrazy w zaledwie kilka milisekund na typowym sprzęcie. W zadaniach z wieloma chorobami SqueezeViT dorównuje lub jest blisko najlepszych ciężkich modeli w przypadku wielu schorzeń i wyraźnie przewyższa inne lekkie projekty. W prostszych zadaniach normalne kontra nieprawidłowe ponownie uzyskuje mocne i spójne wyniki na obu zestawach danych.

Co to oznacza dla codziennej opieki

Dla czytelników bez technicznego przygotowania kluczowy wniosek jest taki, że SqueezeViT pokazuje, iż można zbudować asystenta AI dla zdjęć rentgenowskich klatki piersiowej, który jest jednocześnie oszczędny pod względem zasobów obliczeniowych i rzetelny w wykrywaniu chorób. Nie zastępuje on radiologów ani klinicystów, ale może pomóc szybciej wskazywać podejrzane skany w zatłoczonych szpitalach oraz rozszerzyć dostęp do zaawansowanej analizy obrazów w przychodniach z ograniczonym sprzętem. Autorzy zauważają, że etykiety z rzeczywistego świata mogą być zaszumione, a niektóre kategorie chorób pozostają trudne do rozpoznania, jednak sugerują, że ta zwarta konstrukcja to obiecujący krok w kierunku niezawodnych, przenośnych narzędzi wspomagających obrazowanie klatki piersiowej, które w przyszłości można będzie dostosować do innych badań obrazowych, takich jak CT czy MRI.

Cytowanie: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

Słowa kluczowe: AI do zdjęć rentgenowskich klatki piersiowej, vision transformer, analiza obrazów medycznych, lekkie uczenie głębokie, wykrywanie chorób płuc