Clear Sky Science · it
Accuratezza diagnostica dei modelli linguistici multimodali nel distinguere crisi epilettiche da crisi funzionali in video registrati con smartphone
Perché il video del tuo telefono potrebbe aiutare a diagnosticare una crisi
Quando qualcuno crolla improvvisamente o inizia a tremare, i presenti spesso fanno la stessa cosa: tirano fuori uno smartphone e premono rec. Questi video possono offrire indizi salvavita, aiutando i medici a stabilire se l’episodio sia una crisi epilettica o un evento che le somiglia chiamato crisi funzionale. Ma gli specialisti in neurologia sono pochi e l’attesa per la revisione di un video da parte di un esperto può ritardare il trattamento. Questo studio si chiede se le moderne intelligenze artificiali, nello specifico i modelli linguistici multimodali, siano in grado di osservare questi clip quotidiani registrati con il telefono e distinguere tra le due condizioni in autonomia.

Due tipi di emergenze che si somigliano
Le crisi epilettiche e le crisi funzionali possono apparire simili a un occhio non esperto, ma hanno cause e trattamenti molto diversi. Le crisi epilettiche derivano da un’attività elettrica anormale nel cervello e sono solitamente trattate con farmaci o interventi chirurgici. Le crisi funzionali, al contrario, non sono causate da scariche cerebrali di questo tipo; sono eventi reali e angoscianti radicati in complesse interazioni cervello‑mente e richiedono cure diverse, spesso con supporto psicologico. Poiché gli episodi sono brevi e spaventosi, le famiglie faticano a descriverli con precisione. Le registrazioni video effettuate sul momento offrono un’immagine più fedele, ma la loro valutazione dipende ancora dall’accesso a specialisti in epilessia qualificati.
Mettere alla prova un’IA a uso generale
I ricercatori di un importante centro per l’epilessia hanno raccolto 24 video realizzati con smartphone da 15 adulti i cui episodi erano stati diagnosticati con accuratezza usando il monitoraggio video‑EEG ospedaliero, il gold standard che registra sia le onde cerebrali sia il comportamento. Diciannove clip mostravano crisi epilettiche e cinque crisi funzionali. Hanno poi sottoposto ciascun video, senza alcuna informazione clinica di contesto, a quattro versioni di una famiglia di sistemi IA a uso generale (Gemini 1.5 Pro, 2.0 Flash, 2.5 Flash e 2.5 Pro). A ogni modello è stata posta una domanda semplice: l’evento era epilettico o funzionale? L’IA doveva anche indicare quanto fosse sicura della propria risposta su una scala da 1 a 10. Il team ha confrontato le risposte dell’IA con le diagnosi ospedaliere e ha calcolato misure standard come accuratezza, sensibilità (quanto spesso le crisi epilettiche venivano identificate correttamente) e specificità (quanto spesso le crisi funzionali venivano correttamente escluse).
Cosa l’IA ha indovinato — e cosa no
Le versioni più recenti dell’IA hanno fatto meglio di quelle precedenti, ma nessuna si è avvicinata a sostituire uno specialista. L’accuratezza diagnostica complessiva è salita da circa un terzo di risposte corrette nel modello più antico a poco oltre la metà nei due modelli più recenti. L’ultimo sistema, Gemini 2.5 Pro, è risultato il più equilibrato: ha rilevato poco più della metà delle crisi epilettiche e ha correttamente escluso la maggior parte, ma non tutte, delle crisi funzionali. Le versioni precedenti erano estremamente caute: quasi mai etichettavano in modo errato crisi funzionali, ma mancavano la stragrande maggioranza delle crisi epilettiche. È importante notare che una strategia ingenua che avrebbe semplicemente classificato ogni evento come “epilettico” avrebbe prodotto un’accuratezza grezza superiore a quella di qualsiasi modello — tuttavia avrebbe completamente fallito nel distinguere le due condizioni, sottolineando quanto sia difficile questo compito.
Perché i dettagli del video contano così tanto
Lo studio ha inoltre rivelato che la qualità e l’inquadratura del video influenzano fortemente le prestazioni dell’IA. Quando le registrazioni erano nitide, ben illuminate e focalizzate sulla parte superiore del corpo o sul volto, i modelli più nuovi erano corretti in circa l’80–90 percento dei casi in quel sottoinsieme. Quando invece il corpo intero era ripreso da lontano o l’illuminazione era scarsa, l’accuratezza precipitava, talvolta fino a valori prossimi allo zero. Anche il tipo di crisi faceva la differenza: le prime versioni dell’IA fallivano praticamente negli eventi più sottili, non tremolanti, mentre le versioni successive mostravano un bilanciamento migliore tra episodi con scosse evidenti e quelli meno drammatici. Tuttavia, in tutti i modelli i punteggi di confidenza restavano alti sia nelle risposte corrette sia in quelle errate, il che significa che l’IA era spesso “erroneamente sicura” — una caratteristica preoccupante se clinici o pazienti dovessero fare affidamento su questi giudizi.

Cosa significa questo per pazienti e medici
Per ora il messaggio è chiaro: l’IA a uso generale può riconoscere pattern nei video di crisi ed è in lento miglioramento, ma rimane lontana dall’essere uno strumento diagnostico affidabile da solo. I sistemi non rilevano ancora molte crisi epilettiche, faticano con eventi sottili e non sanno ancora quando potrebbero sbagliare. Gli autori sostengono che le versioni future dovranno essere addestrate su collezioni molto più ampie di video medici di alta qualità etichettati da esperti, adottare modi migliori di esprimere l’incertezza e integrarsi più strettamente con le anamnesi dei pazienti e le registrazioni delle onde cerebrali. Piuttosto che sostituire i neurologi, questi strumenti sono più propensi a diventare parte di un approccio più ampio e centrato sull’essere umano, in cui smartphone, specialisti e IA progettate con cura lavorano insieme per accelerare e affinare la diagnosi delle crisi.
Citazione: Patel, A., Vallamchetla, S.K., Safa, A. et al. Diagnostic accuracy of multimodal large language models in differentiating epileptic from functional seizures in smartphone recorded videos. Sci Rep 16, 11719 (2026). https://doi.org/10.1038/s41598-026-46333-z
Parole chiave: epilessia, video di crisi, intelligenza artificiale, modelli linguistici di grandi dimensioni, diagnosi medica