Clear Sky Science · pl

Wykrywanie łagodnych zaburzeń poznawczych na podstawie ręcznie rysowanego testu przy użyciu resztkowego transformera wizji

2026-02-24 · Powrót do spisu

Dlaczego proste rysunki mogą ujawniać ukryte problemy z pamięcią

Wyobraź sobie, że lekarz mógłby dostrzec wczesne sygnały ostrzegawcze demencji, obserwując jedynie sposób, w jaki rysujesz zegar, sześcian lub linię połączonych kółek. Te szybkie szkice są już stosowane w klinikach, ale oceniane ręcznie i w dużym stopniu zależą od osądu lekarza. Artykuł pokazuje, jak system sztucznej inteligencji (AI) o nazwie ResViT potrafi automatycznie „czytać” takie rysunki, zamieniając pociągnięcia pióra w wczesne ostrzeżenie o łagodnych zaburzeniach poznawczych (MCI) — etapie między normalnym starzeniem się a demencją, kiedy leczenie i planowanie mogą wciąż zrobić dużą różnicę.

Od testów na papierze do inteligentnego przesiewania

Łagodne zaburzenia poznawcze często ujawniają się najpierw w codziennych zadaniach wymagających planowania, uwagi i poczucia przestrzeni — dokładnie tego, co badają testy rysunkowe. Lekarze zazwyczaj proszą pacjentów o narysowanie zegara wskazującego określoną godzinę, skopiowanie sześcianu trójwymiarowego lub połączenie rozsianych liczb i liter w sekwencję. W przeszłości każdy rysunek musiał być oceniony wzrokowo, co jest powolne i może się różnić w zależności od klinicysty. Autorzy postawili sobie za cel zbudowanie bardziej obiektywnego systemu, który analizuje wszystkie trzy rysunki razem, wykorzystując komputer do wykrywania wzorców, które mogą umknąć nawet wytrenowanemu oku. Ich celem nie jest zastąpienie lekarzy, lecz dostarczenie im szybkiej, spójnej drugiej opinii.

Łączenie dwóch sposobów widzenia: detale i ogólny obraz

Rdzeń badania stanowi hybrydowy model AI nazwany ResViT, zaprojektowany tak, by łączyć dwa komplementarne sposoby analizy obrazu. Jedna część, oparta na technice znanej jako ResNet, jest szczególnie dobra w wykrywaniu drobnych detali, takich jak krawędzie, kąty i niewielkie zniekształcenia linii rysunku. Druga część, Vision Transformer, doskonale rozumie układ całościowy — jak elementy zegara, sześcianu czy ścieżki rozmieszczone są na stronie. Zamiast przepuszczać rysunki przez te komponenty kolejno, system uruchamia je równolegle, a następnie łączy oba strumienie informacji w jeden, bogatszy obraz stanu poznawczego osoby.

Jak system uczy się na prawdziwych rysunkach pacjentów

Aby przetestować pomysł, badacze wykorzystali publiczny zbiór rysunków od 918 osób, z których każda wykonała zadania: zegar, sześcian i test łączenia punktów. Stan poznawczy każdej osoby został wcześniej oceniony przy użyciu standardowego testu klinicznego, co dostarczyło etykiet „zdrowy” lub „MCI” jako prawdy podstawowej. Zespół przekształcił rysunki na obrazy w skali szarości, zmienił ich rozmiar i zastosował proste modyfikacje, takie jak obroty i zmiany jasności, aby zwiększyć odporność modelu. Podczas treningu ResViT wielokrotnie porównywał swoje przewidywania z znanymi etykietami i dostosowywał wewnętrzne ustawienia, stosując zabezpieczenia, takie jak wczesne zatrzymanie i dropout, aby zapobiec zapamiętywaniu danych treningowych zamiast nauki ogólnych reguł.

Jak dobrze działa i co ujawnia

Po ocenie na osobach, których wcześniej nie widział, ResViT poprawnie rozróżniał osoby zdrowe od tych z MCI w około trzech czwartych przypadków, osiągając dokładność 74,09% i zrównoważoną miarę F1 około 0,67. Wynik ten przewyższał kilka silnych alternatyw, w tym wersje używające tylko części ResNet, tylko Vision Transformer lub innej popularnej sieci EfficientNet. Podejście hybrydowe, mające około jednej trzeciej liczby parametrów wewnętrznych w porównaniu z dużym samodzielnym transformerem, okazało się szczególnie dobre w balansowaniu czułości na chorobę z unikaniem fałszywych alarmów. Dzięki wizualizacjom w postaci map cieplnych autorzy pokazali również, że model koncentruje się na klinicznie istotnych obszarach — jak cyfry na zegarze, krawędzie sześcianu czy punkty rozgałęzień w ścieżkach — co sugeruje, że zwraca uwagę na te same wskazówki co eksperci ludzcy.

Ograniczenia dziś i możliwości jutra

Autorzy podkreślają, że ich system nie jest jeszcze gotowy, by pełnić rolę uniwersalnego narzędzia przesiewowego. Zbiór danych jest umiarkowanych rozmiarów, z przewagą osób starszych i pozbawiony istotnych informacji kontekstowych, takich jak poziom wykształcenia czy różnice kulturowe, które mogą wpływać na sposób rysowania. Model może być też wymagający obliczeniowo dla urządzeń o niskiej mocy. Mimo to, ponieważ ResViT można dostosować przy użyciu relatywnie niewielu nowych przykładów, mógłby zostać rozszerzony na inne zaburzenia poznawcze lub nowe zadania rysunkowe w miarę pojawiania się większej ilości danych. Kluczowe będą integracja większych i bardziej zróżnicowanych zbiorów danych oraz budowa lżejszych wersji modelu na drodze do codziennego zastosowania.

Co to oznacza dla pacjentów i rodzin

Mówiąc wprost, praca ta pokazuje, że starannie zaprojektowana AI może zamienić proste szkice na papierze w praktyczne narzędzie do wykrywania wczesnych oznak problemów z pamięcią i myśleniem. Choć dokładność na poziomie 74% nie jest doskonała, jest obiecująca jako pierwsza linia obrony — tania, szybka i łatwa do powtarzania w czasie. W przyszłości zeskanowany rysunek z przychodni, a nawet rysunek wykonany na tablecie w domu, mógłby dyskretnie wykryć subtelne zmiany dużo wcześniej, niż są one widoczne w codziennym życiu, dając lekarzom i rodzinom więcej czasu na reakcję. Zamiast zastępować ludzki osąd, systemy takie jak ResViT mogą uczynić ten osąd bardziej spójnym i terminowym, przynosząc wcześniejszą pomoc osobom zagrożonym demencją.

Cytowanie: Sirshar, M., Matloob, I., Tayyabah, A. et al. MCI detection from handwritten drawing test using residual vision transformer. Sci Rep 16, 10334 (2026). https://doi.org/10.1038/s41598-026-40716-y

Słowa kluczowe: łagodne zaburzenia poznawcze, testy rysunkowe, głębokie uczenie, vision transformer, wczesne wykrywanie demencji