Clear Sky Science · pl
Dokładność diagnostyczna wielomodalnych dużych modeli językowych w rozróżnianiu napadów padaczkowych od napadów funkcjonalnych na filmach nagranych smartfonem
Dlaczego film z telefonu może pomóc w rozpoznaniu napadu
Kiedy ktoś nagle upada lub zaczyna się trząść, przezierni często robią to samo: wyciągają smartfon i zaczynają nagrywać. Te nagrania mogą dostarczyć informacji ratujących życie, pomagając lekarzom zdecydować, czy zdarzenie było napadem padaczkowym, czy epizodem naśladującym — tzw. napadem funkcjonalnym. Jednak ekspertów neurologów jest za mało, a oczekiwanie na ocenę specjalisty może opóźnić leczenie. W badaniu postawiono pytanie, czy współczesna sztuczna inteligencja, a konkretnie wielomodalne duże modele językowe, potrafią samodzielnie obejrzeć takie codzienne nagrania z telefonu i rozróżnić oba typy zdarzeń.

Dwa typy podobnych nagłych zdarzeń
Napady padaczkowe i napady funkcjonalne mogą wyglądać podobnie dla niewprawnego oka, lecz mają bardzo różne przyczyny i sposoby leczenia. Napady padaczkowe wynikają z nieprawidłowej aktywności elektrycznej mózgu i zwykle leczy się je lekami lub operacyjnie. Napady funkcjonalne natomiast nie są spowodowane takimi wyładowaniami mózgowymi; są realnymi i stresującymi zdarzeniami wynikającymi z złożonych interakcji między mózgiem a umysłem i wymagają innego podejścia terapeutycznego, często obejmującego wsparcie psychologiczne. Ponieważ zdarzenia są krótkie i przerażające, rodziny mają trudności z ich dokładnym opisaniem. Nagrania wykonane na miejscu dają wierniejszy obraz, ale ich analiza nadal zależy od dostępu do wyspecjalizowanych epileptologów.
Testowanie uniwersalnej SI
Naukowcy z dużego ośrodka epileptologicznego zgromadzili 24 filmy ze smartfonów od 15 dorosłych osób, których zdarzenia zostały dokładnie zdiagnozowane za pomocą monitoringu wideo–EEG w szpitalu — złotego standardu rejestrującego jednocześnie aktywność mózgu i zachowanie. Dziewiętnaście nagrań przedstawiało napady padaczkowe, a pięć — napady funkcjonalne. Następnie każde wideo, bez żadnych dodatkowych informacji medycznych, przedstawiono czterem wersjom rodziny systemów SI ogólnego przeznaczenia (Gemini 1.5 Pro, 2.0 Flash, 2.5 Flash i 2.5 Pro). Każdy model miał odpowiedzieć na proste pytanie: czy zdarzenie było padaczkowe, czy funkcjonalne? SI musiała też podać swoją pewność na skali 1–10. Zespół porównał odpowiedzi SI z diagnozami szpitalnymi i policzył standardowe miary, takie jak dokładność, czułość (jak często poprawnie wykryto napady padaczkowe) i swoistość (jak często poprawnie wykluczono napady funkcjonalne).
Co SI zrobiła dobrze — i co źle
Nowsze wersje SI radziły sobie lepiej niż starsze, ale żadna nie zbliżyła się do poziomu zastąpienia specjalisty. Ogólna dokładność diagnostyczna wzrosła od około jednej trzeciej poprawnych odpowiedzi w najwcześniejszym modelu do nieco ponad połowy w dwóch najnowszych modelach. Najnowszy system, Gemini 2.5 Pro, był najbardziej wyważony: wykrywał nieco ponad połowę napadów padaczkowych i poprawnie odrzucał większość, choć nie wszystkie, napadów funkcjonalnych. Wcześniejsze wersje były niezwykle ostrożne: niemal nigdy nie myliły napadów funkcjonalnych z padaczkowymi, ale przegapiały zdecydowaną większość napadów padaczkowych. Co istotne, prosta strategia nazywania każdego zdarzenia „padaczkowym” dałaby wyższą surową dokładność niż jakikolwiek model — lecz całkowicie zawiodłaby w rozróżnianiu obu stanów, podkreślając, jak trudne jest to zadanie.
Dlaczego szczegóły obrazu mają tak duże znaczenie
Badanie wykazało również, że jakość i kadrowanie nagrania silnie wpływały na wydajność SI. Gdy nagrania były wyraźne, dobrze oświetlone i skupione na górnej części ciała lub twarzy, najnowsze modele miały poprawne rozpoznanie w około 80–90 procentach przypadków w tej podgrupie. Gdy natomiast całe ciało było pokazane z dystansu lub oświetlenie było słabe, dokładność spadała gwałtownie, czasem blisko zera. Rodzaj napadu też się liczył: wczesne wersje SI zasadniczo zawodziły przy subtelniejszych, niedrżących zdarzeniach, podczas gdy późniejsze były nieco lepiej zrównoważone między oczywistymi drgawkami a mniej dramatycznymi epizodami. Jednak we wszystkich modelach wskaźniki pewności pozostawały wysokie niezależnie od poprawności odpowiedzi, co oznacza, że SI często była „pewnie nieprawidłowa” — cecha niepokojąca, gdyby klinicyści lub pacjenci mieli polegać na takich osądach.

Co to znaczy dla pacjentów i lekarzy
Na razie przesłanie jest jasne: uniwersalna SI potrafi wyłapywać wzorce na filmach z napadami i stopniowo się poprawia, ale wciąż jest daleka od bycia godnym zaufania narzędziem diagnostycznym działającym samodzielnie. Systemy wciąż pomijają wiele napadów padaczkowych, mają trudności z subtelnymi epizodami i nie potrafią jeszcze dobrze sygnalizować, kiedy mogą się mylić. Autorzy argumentują, że przyszłe wersje będą potrzebować treningu na znacznie większych zbiorach wysokiej jakości, ekspercko oznakowanych nagrań medycznych, lepszych sposobów wyrażania niepewności oraz ścisłej integracji z historią pacjenta i zapisami EEG. Zamiast zastępować neurologów, narzędzia te prawdopodobnie staną się częścią szerszego, zorientowanego na człowieka podejścia, w którym smartfony, specjaliści i starannie zaprojektowana SI współpracują, aby przyspieszyć i ulepszyć diagnostykę napadów.
Cytowanie: Patel, A., Vallamchetla, S.K., Safa, A. et al. Diagnostic accuracy of multimodal large language models in differentiating epileptic from functional seizures in smartphone recorded videos. Sci Rep 16, 11719 (2026). https://doi.org/10.1038/s41598-026-46333-z
Słowa kluczowe: padaczka, filmy z napadami, sztuczna inteligencja, duże modele językowe, diagnoza medyczna