Clear Sky Science · de

Diagnostische Genauigkeit multimodaler Large‑Language‑Modelle bei der Unterscheidung epileptischer von funktionellen Anfällen in mit dem Smartphone aufgezeichneten Videos

2026-04-07 · Zurück zur Übersicht

Warum Ihr Handy‑Video bei der Diagnose eines Anfalls helfen kann

Wenn jemand plötzlich zusammenbricht oder zu zittern beginnt, greifen Umstehende heute oft zur selben Reaktion: sie ziehen ein Smartphone heraus und drücken auf Aufnahme. Diese Videos können lebenswichtige Hinweise liefern und Ärzten helfen zu entscheiden, ob es sich um einen epileptischen Anfall oder um eine ähnlich aussehende Episode handelt, die als funktioneller Anfall bezeichnet wird. Fachneurologen sind jedoch knapp, und das Warten auf eine Spezialistenbewertung der Videos kann die Behandlung verzögern. Diese Studie prüft, ob moderne künstliche Intelligenz, genauer multimodale Large‑Language‑Modelle, diese Alltagsclips ansehen und selbständig unterscheiden kann.

Zwei Arten von ähnlich aussehenden Notfällen

Epileptische und funktionelle Anfälle können für Ungeübte ähnlich aussehen, haben aber sehr unterschiedliche Ursachen und Behandlungen. Epileptische Anfälle entstehen durch abnorme elektrische Aktivität im Gehirn und werden in der Regel medikamentös oder operativ therapiert. Funktionelle Anfälle hingegen werden nicht durch solche Hirnentladungen verursacht; sie sind reale und belastende Ereignisse, die in komplexen Wechselwirkungen zwischen Gehirn und Psyche verwurzelt sind und eine andere Versorgung erfordern, häufig mit psychologischer Unterstützung. Weil die Ereignisse kurz und angsteinflößend sind, fällt es Angehörigen schwer, sie genau zu beschreiben. Videoaufzeichnungen, die im Moment gemacht wurden, liefern ein treueres Bild, doch ihre Auswertung hängt weiterhin vom Zugang zu versierten Epilepsiespezialisten ab.

Allzweck‑KI auf dem Prüfstand

Die Forschenden eines großen Epilepsiezentrums sammelten 24 Smartphone‑Videos von 15 Erwachsenen, deren Ereignisse sorgfältig mittels stationärer Video‑EEG‑Überwachung diagnostiziert worden waren — dem Goldstandard, der sowohl Hirnströme als auch Verhalten aufzeichnet. Neunzehn Clips zeigten epileptische Anfälle, fünf zeigten funktionelle Anfälle. Anschließend fütterten sie jedes Video, ohne zusätzliche medizinische Hintergrundinformationen, vier Versionen einer Familie allgemeiner KI‑Systeme (Gemini 1.5 Pro, 2.0 Flash, 2.5 Flash und 2.5 Pro). Jedes Modell erhielt eine einfache Frage: War das Ereignis epileptisch oder funktionell? Die KI sollte außerdem angeben, wie sicher sie sich auf einer Skala von 1–10 fühlte. Das Team verglich die Antworten der KI mit den Krankenhausdiagnosen und berechnete gängige Kennzahlen wie Genauigkeit, Sensitivität (wie oft epileptische Anfälle korrekt erkannt wurden) und Spezifität (wie oft funktionelle Anfälle korrekt ausgeschlossen wurden).

Was die KI richtig — und falsch — machte

Neuere Modellversionen schnitten besser ab als ältere, doch keines kam in die Nähe, einen Spezialisten zu ersetzen. Die Gesamtgenauigkeit stieg von etwa einem Drittel korrekter Antworten im frühesten Modell auf etwas mehr als die Hälfte in den beiden neuesten Modellen. Das aktuellste System, Gemini 2.5 Pro, war am ausgewogensten: Es erkannte etwas mehr als die Hälfte der epileptischen Anfälle und wies die meisten, aber nicht alle, funktionellen Anfälle korrekt zurück. Frühere Versionen waren extrem vorsichtig: Sie etikettierten funktionelle Anfälle fast nie fälschlich als epileptisch, verpassten jedoch die überwältigende Mehrheit der epileptischen Anfälle. Wichtig ist, dass eine naive Strategie, jedes Ereignis einfach als „epileptisch“ zu bezeichnen, eine höhere Rohgenauigkeit erzielt hätte als jedes Modell — aber völlig versagt hätte, die beiden Zustände zu unterscheiden, was die Schwierigkeit dieser Aufgabe unterstreicht.

Warum Videodetails so stark ins Gewicht fallen

Die Studie zeigte außerdem, dass Qualität und Bildausschnitt des Videos die KI‑Leistung stark beeinflussten. Bei klaren, gut beleuchteten Aufnahmen, die auf Oberkörper oder Gesicht fokussierten, lagen die neuesten Modelle in diesem Subset in etwa 80–90 Prozent der Fälle richtig. Wenn der ganze Körper aus der Ferne gezeigt wurde oder die Beleuchtung schlecht war, fiel die Genauigkeit stark ab, teilweise nahe null. Auch die Anfallsform machte einen Unterschied: frühe KI‑Versionen scheiterten im Wesentlichen bei subtileren, nicht‑zuckenden Ereignissen, während spätere Versionen etwas ausgewogener zwischen offensichtlich zitternden und weniger dramatischen Episoden waren. Über alle Modelle hinweg blieben die Vertrauenswerte jedoch hoch, egal ob die Antwort richtig oder falsch war — die KI war also oft „zuversichtlich falsch“; eine beunruhigende Eigenschaft, falls Kliniker oder Patienten auf diese Einschätzungen vertrauen sollten.

Was das für Patienten und Ärzte bedeutet

Vorläufig lautet die Botschaft: Allzweck‑KI kann Muster in Anfallsvideos erkennen und verbessert sich langsam, bleibt jedoch weit davon entfernt, als eigenständiges Diagnosetool vertrauenswürdig zu sein. Die Systeme übersehen weiterhin viele epileptische Anfälle, haben Schwierigkeiten mit subtilen Ereignissen und wissen noch nicht zuverlässig, wann sie falsch liegen könnten. Die Autorinnen und Autoren argumentieren, dass künftige Versionen auf deutlich größeren Sammlungen qualitativ hochwertiger, von Expertinnen und Experten gelabelter medizinischer Videos trainiert werden müssen, bessere Methoden zur Darstellung von Unsicherheit benötigen und enger mit der Anamnese der Patientinnen und Patienten sowie Hirn‑Wellen‑Aufzeichnungen verknüpft werden sollten. Statt Neurologen zu ersetzen, werden diese Werkzeuge wahrscheinlich Teil eines breiteren, menschenzentrierten Ansatzes, in dem Smartphones, Spezialisten und sorgfältig gestaltete KI zusammenarbeiten, um die Anfallsdiagnose zu beschleunigen und zu präzisieren.

Zitation: Patel, A., Vallamchetla, S.K., Safa, A. et al. Diagnostic accuracy of multimodal large language models in differentiating epileptic from functional seizures in smartphone recorded videos. Sci Rep 16, 11719 (2026). https://doi.org/10.1038/s41598-026-46333-z

Schlüsselwörter: Epilepsie, Anfallsvideos, künstliche Intelligenz, Large‑Language‑Modelle, medizinische Diagnose