Clear Sky Science · pl

Hybrydowe podejście głębokiego uczenia łączące CNN i transformator do klasyfikacji raka płuca na podstawie tomografii komputerowej

· Powrót do spisu

Dlaczego to badanie ma znaczenie dla pacjentów i rodzin

Rak płuca jest jednym z najgroźniejszych nowotworów na świecie, głównie dlatego, że często wykrywany jest zbyt późno. W pracy tej badacze badają, jak zaawansowana wizja komputerowa może pomóc lekarzom czytać tomografie komputerowe płuc dokładniej i bardziej konsekwentnie, tak aby podejrzane zmiany w płucach były wykrywane wcześniej i przy mniejszej liczbie błędów, co może wspierać szybsze i lepiej poinformowane decyzje kliniczne.

Wgląd w klatkę piersiową cyfrowymi oczami

Lekarze powszechnie polegają na tomografiach komputerowych, aby wykrywać drobne zmiany w płucach, które mogą wskazywać na raka. Te zmiany, zwane guzkami, mogą być bardzo małe i dyskretne, zwłaszcza we wczesnych stadiach choroby. Tkanka płucna bez zmian, łagodne guzki i niebezpieczne guzy mogą wyglądać zadziwiająco podobnie, nawet dla doświadczonych specjalistów. Małe różnice w jakości obrazu, tle tkankowym lub zaszumieniu skanu mogą dodatkowo zacierać różnice. Z tego powodu niektóre nowotwory są pomijane, podczas gdy inne obserwacje wywołują fałszywe alarmy prowadzące do niepotrzebnych badań uzupełniających.

Figure 1. Jak sztuczna inteligencja odczytuje tomografie płuc, sortując obrazy na zdrowe, nieszkodliwe lub nowotworowe kategorie.
Figure 1. Jak sztuczna inteligencja odczytuje tomografie płuc, sortując obrazy na zdrowe, nieszkodliwe lub nowotworowe kategorie.

Nauka komputerów rozpoznawania wzorców w skanach płuc

Naukowcy zaprojektowali system głębokiego uczenia, zwany C-Swin, aby klasyfikować obrazy TK płuc do trzech kategorii: prawidłowe, łagodne (niezłośliwe) i złośliwe (nowotworowe). Systemy głębokiego uczenia uczą się bezpośrednio na podstawie dużej liczby przykładów obrazów, zamiast polegać na ręcznie opracowanych regułach. C-Swin łączy dwie potężne koncepcje. Rodzaj sieci neuronowej znany jako konwolucyjna sieć neuronowa (CNN) koncentruje się na drobnych szczegółach, takich jak krawędzie, tekstury i małe kształty ujawniające strukturę guzka. Jednocześnie moduł transformera, zainspirowany narzędziami stosowanymi w tłumaczeniu języka, patrzy na obraz w szerszym kontekście, rozważając, jak regiony odnoszą się do siebie w całych płucach.

Skupianie się na tym, co naprawdę ważne na obrazie

Aby w pełni wykorzystać skany TK, zespół wprowadził specjalny mechanizm uwagi, który pomaga modelowi koncentrować się na istotnych obszarach, ignorując tło i zakłócenia. Obraz TK dzielony jest na małe fragmenty lub okna. W obrębie tych okien model uczy się, które obszary niosą najbardziej użyteczne informacje do oceny, czy tkanka jest zdrowa czy nie. Poprzez przesuwanie i łączenie okien w różnych kierunkach sieć zachowuje relacje między sąsiednimi regionami i wychwytuje zarówno zbliżone detale, jak i długozasięgowe struktury w płucach. Dodatkowy komponent bramkowania pomaga systemowi uwydatnić subtelne, lecz istotne wzorce i tłumić mniej przydatne sygnały, dopracowując sposób, w jaki model rozróżnia łagodne guzki od niebezpiecznych.

Figure 2. Jak model AI o podwójnej ścieżce zbliża się do szczegółów płuc i całości skanu, aby uwydatnić prawdopodobne ogniska nowotworowe.
Figure 2. Jak model AI o podwójnej ścieżce zbliża się do szczegółów płuc i całości skanu, aby uwydatnić prawdopodobne ogniska nowotworowe.

Weryfikacja systemu

Autorzy trenowali i oceniali C-Swin, wykorzystując publicznie dostępny zbiór danych TK zebrany w irackich szpitalach, który zawiera obrazy zdrowych płuc, łagodnych guzków i przypadków złośliwych. Ponieważ zbiory medyczne są często niewielkie, powiększyli zestaw treningowy za pomocą augmentacji danych, takiej jak odbicia i obroty obrazów, by naśladować większą różnorodność skanów. Po starannym przetwarzaniu wstępnym i treningu model poprawnie klasyfikował obrazy z dokładnością około 96 procent i osiągnął równie wysokie wyniki w miarach precyzji, czułości i F1-score — wskaźnikach równoważących pominięte nowotwory i fałszywe alarmy. W powtarzanych testach z różnymi podziałami danych wyniki pozostały stabilne, a kontrole statystyczne wykazały, że C-Swin działało istotnie lepiej niż kilka istniejących metod głębokiego uczenia.

Co to może znaczyć dla przyszłej opieki

Chociaż badanie to nie zastępuje oceny radiologa, pokazuje, że starannie zaprojektowane połączenie lokalnej i globalnej analizy obrazu może pomóc komputerom skupić się na tych samych obszarach płuc, które eksperci uznają za najważniejsze. Wizualizacje Grad-CAM, które uwydatniają obszary obrazu wpływające na decyzje modelu, sugerują, że C-Swin ma tendencję do koncentrowania się na regionach zmian chorobowych, a nie na nieistotnym tle. Autorzy zauważają, że praca opiera się na jednym, stosunkowo niewielkim zbiorze danych, więc potrzebne są dalsze testy w różnych szpitalach i na innych aparatach. Jeśli system zostanie zweryfikowany na większych i bardziej zróżnicowanych zbiorach skanów, takie rozwiązania mogłyby stać się użytecznymi asystentami w pracowni diagnostycznej, pomagając klinicystom priorytetyzować przypadki, redukować przeoczenia i potencjalnie wspierać wcześniejsze wykrywanie raka płuca.

Cytowanie: Yousafzai, S.N., Nasir, I.M., Mansour, S. et al. A hybrid deep learning approach integrating CNN and transformer for lung cancer classification using CT scans. Sci Rep 16, 15420 (2026). https://doi.org/10.1038/s41598-026-41161-7

Słowa kluczowe: rak płuca, tomografia komputerowa, głębokie uczenie, medyczna sztuczna inteligencja, klasyfikacja obrazów