Clear Sky Science · fr

Précision diagnostique des grands modèles de langage multimodaux pour différencier crises épileptiques et crises fonctionnelles dans des vidéos enregistrées par smartphone

· Retour à l’index

Pourquoi la vidéo de votre téléphone peut aider à diagnostiquer une crise

Lorsqu’une personne s’écroule soudainement ou commence à trembler, les témoins ont désormais souvent le même réflexe : sortir un smartphone et appuyer sur « enregistrer ». Ces vidéos peuvent fournir des indices salvateurs, aidant les médecins à déterminer si l’événement était une crise épileptique ou un épisode apparenté appelé crise fonctionnelle. Mais les neurologues experts se font rares, et attendre qu’un spécialiste examine les vidéos peut retarder la prise en charge. Cette étude se demande si l’intelligence artificielle moderne, en particulier les grands modèles de langage multimodaux, peut visionner ces séquences filmées au quotidien et faire elle‑même la différence.

Figure 1
Figure 1.

Deux types d’urgences qui se ressemblent

Les crises épileptiques et fonctionnelles peuvent sembler similaires pour un œil non entraîné, mais elles ont des causes et des traitements très différents. Les crises épileptiques résultent d’une activité électrique anormale du cerveau et se traitent en général par des médicaments ou une intervention chirurgicale. Les crises fonctionnelles, en revanche, ne sont pas provoquées par de telles décharges cérébrales ; ce sont des événements réels et éprouvants ancrés dans des interactions complexes entre cerveau et esprit, nécessitant des soins différents, souvent axés sur un accompagnement psychologique. Parce que ces épisodes sont brefs et effrayants, les familles ont du mal à les décrire fidèlement. Les enregistrements vidéo pris sur le moment offrent une image plus fidèle, mais leur interprétation reste tributaire de l’accès à des spécialistes en épilepsie compétents.

Mettre l’IA généraliste à l’épreuve

Les chercheurs d’un grand centre spécialisé en épilepsie ont rassemblé 24 vidéos prises au smartphone chez 15 adultes dont les épisodes avaient été diagnostiqués avec soin grâce à une surveillance vidéo‑EEG hospitalière, le standard de référence qui enregistre à la fois l’activité électrique cérébrale et le comportement. Dix‑neuf clips montraient des crises épileptiques et cinq des crises fonctionnelles. Ils ont ensuite présenté chaque vidéo, sans aucune information médicale de contexte, à quatre versions d’une famille de systèmes d’IA généralistes (Gemini 1.5 Pro, 2.0 Flash, 2.5 Flash et 2.5 Pro). Chaque modèle devait répondre à une question simple : l’événement était‑il épileptique ou fonctionnel ? L’IA devait aussi indiquer son degré de confiance sur une échelle de 1 à 10. L’équipe a comparé les réponses de l’IA aux diagnostics hospitaliers et calculé des mesures standard telles que l’exactitude, la sensibilité (la fréquence à laquelle les crises épileptiques étaient correctement repérées) et la spécificité (la fréquence à laquelle les crises fonctionnelles étaient correctement écartées).

Ce que l’IA a bien — et mal — fait

Les versions récentes de l’IA ont fait mieux que les plus anciennes, mais aucune ne s’est approchée de la substitution à un spécialiste. L’exactitude globale est passée d’environ un tiers de bonnes réponses dans le modèle le plus ancien à un peu plus de la moitié dans les deux modèles les plus récents. Le système le plus performant, Gemini 2.5 Pro, était le plus équilibré : il a détecté un peu plus de la moitié des crises épileptiques et a correctement rejeté la plupart, mais pas toutes, des crises fonctionnelles. Les versions antérieures étaient extrêmement prudentes : elles étiquetaient presque jamais à tort une crise fonctionnelle, mais elles manquaient la grande majorité des crises épileptiques. Fait important, une stratégie naïve consistant à qualifier systématiquement chaque épisode d’« épileptique » aurait donné une exactitude brute supérieure à celle de n’importe quel modèle — mais aurait complètement échoué à distinguer les deux conditions, ce qui souligne la difficulté de la tâche.

Pourquoi les détails de la vidéo comptent tant

L’étude a aussi révélé que la qualité et le cadrage de la vidéo influençaient fortement les performances de l’IA. Lorsque les enregistrements étaient nets, bien éclairés et centrés sur le haut du corps ou le visage, les modèles les plus récents donnaient une bonne réponse dans environ 80–90 % des cas dans ce sous‑ensemble. Quand le corps entier était filmé de loin, ou que l’éclairage était médiocre, l’exactitude chutait drastiquement, parfois jusqu’à quasiment zéro. Le type de crise importait aussi : les premières versions de l’IA échouaient essentiellement sur les événements plus subtils et non convulsifs, tandis que les versions ultérieures se montraient un peu mieux équilibrées entre secousses évidentes et épisodes moins spectaculaires. Pourtant, pour tous les modèles, les scores de confiance restaient élevés que la réponse fût juste ou erronée, ce qui signifie que l’IA était souvent « sûre d’elle alors qu’elle avait tort » — un trait préoccupant si cliniciens ou patients devaient se fier à ces jugements.

Figure 2
Figure 2.

Ce que cela signifie pour les patients et les médecins

Pour l’instant, le message est clair : l’IA généraliste peut repérer des motifs dans des vidéos de crises et s’améliore lentement, mais elle est encore loin d’être fiable comme outil de diagnostic autonome. Ces systèmes ratent encore de nombreuses crises épileptiques, peinent avec les épisodes subtils et ne savent pas encore reconnaître quand ils peuvent se tromper. Les auteurs soutiennent que les versions futures devront être entraînées sur des collections beaucoup plus larges de vidéos médicales de haute qualité étiquetées par des experts, disposer de meilleures façons d’exprimer l’incertitude et être davantage intégrées aux antécédents des patients et aux enregistrements d’ondes cérébrales. Plutôt que de remplacer les neurologues, ces outils devraient vraisemblablement s’inscrire dans une approche humaine plus large où smartphones, spécialistes et IA soigneusement conçues travaillent ensemble pour accélérer et affiner le diagnostic des crises.

Citation: Patel, A., Vallamchetla, S.K., Safa, A. et al. Diagnostic accuracy of multimodal large language models in differentiating epileptic from functional seizures in smartphone recorded videos. Sci Rep 16, 11719 (2026). https://doi.org/10.1038/s41598-026-46333-z

Mots-clés: épilepsie, vidéos de crises, intelligence artificielle, grands modèles de langage, diagnostic médical