Clear Sky Science · de
Bewertung großer Sprachmodelle für diagnostisches Denken aus unstrukturierten klinischen Erzählungen bei Epilepsie
Warum das für Patienten und Ärztinnen wichtig ist
Wenn jemand einen Anfall hat, können Aussehen und Empfindungen wichtige Hinweise darauf geben, was im Gehirn passiert. Ärztinnen und Ärzte nutzen diese Beschreibungen, um zu entscheiden, wo im Gehirn die Anfälle beginnen und welche Behandlungen – einschließlich Operationen – helfen könnten. Diese Studie untersucht, ob große Sprachmodelle, dieselbe Art von künstlicher Intelligenz, die Chatbots antreibt, zuverlässig reale Anfallbeschreibungen interpretieren und dieses diagnostische Denken unterstützen können.

Anfallsberichte in Hirnhinweise verwandeln
Die Forschenden konzentrieren sich auf Epilepsie, eine Erkrankung, bei der kurze Anfälle durch abnorme Hirnaktivität verursacht werden. In der täglichen Versorgung hören Klinikerinnen und Kliniker Patientinnen, Patienten und Zeugen genau zu und notieren Merkmale wie Kaubewegungen, ungewöhnliche Empfindungen oder heftiges Herumfuchteln der Gliedmaßen. Diese Details weisen oft auf bestimmte Hirnareale wie den Temporallappen oder den Frontallappen hin. Das Team baute auf einem großen öffentlichen Datensatz auf, in dem mehr als 1200 Anfallbeschreibungen bereits anhand von Operationsergebnissen – bei denen Patientinnen und Patienten anfallsfrei wurden – sieben groben Hirnregionen zugeordnet waren, ein starkes Indiz dafür, dass die wahre Anfallsquelle entfernt wurde.
Viele KI-Modelle im Vergleich
Acht verschiedene Sprachmodelle wurden bewertet, darunter weit verbreitete allgemeine Systeme und zwei auf medizinische Texte abgestimmte Modelle. Jedes Modell erhielt eine Anfallbeschreibung und sollte angeben, wie wahrscheinlich es ist, dass der Anfall in jeder der sieben Hirnregionen begann. Die Forschenden untersuchten nicht nur, wie oft die oberste Wahl korrekt war, sondern auch, wie zuversichtlich die Modelle wirkten, wie gut diese Zuversicht der Realität entsprach und wie plausibel ihre schriftlichen Erklärungen waren. Die Ergebnisse wurden mit einer einfachen Baseline verglichen, die immer die häufigste Hirnregion wählte, sowie mit zwei menschlichen Epilepsiespezialistinnen bzw. -spezialisten, die eine Teilmenge der Fälle bewerteten.

Wie die Formulierung des Prompts das KI-Verhalten beeinflusst
Die Art, wie die Aufgabe den Modellen gestellt wurde, hatte großen Einfluss. Bei nur grundlegenden Anweisungen erreichten die meisten Systeme nur eine leicht über dem Zufallsniveau liegende Leistung. Die Leistung verbesserte sich, wenn die Modelle einige Beispiel-Fälle gezeigt bekamen, aufgefordert wurden, Schritt für Schritt zu denken, oder wenn ihnen fachlich formulierte Beispiele klinischer Argumentation zur Nachahmung gegeben wurden. Die stärksten Verbesserungen ergaben sich bei Prompts, die zu detaillierterem Denken anregten, und durch das Kombinieren mehrerer unabhängiger Antworten zu einer stabileren Entscheidung. Unter diesen reichhaltigeren Anweisungen näherten sich die besten Systeme bei dieser spezifischen Aufgabe der Genauigkeit menschlicher Klinikerinnen und Kliniker an und wurden gleichzeitig konsistenter und besser kalibriert in ihrer Zuversicht.
Stärken, blinde Flecken und die menschliche Überprüfung
Eine genauere Untersuchung zeigte wichtige Vorbehalte. Klinische Expertinnen und Experten überprüften die von den beiden besten Modellen erzeugte Argumentation. Eines davon, GPT-4, zeigte häufiger ein solides Verständnis der Symptome, korrekte Anwendung epilepsiespezifischen Wissens und kohärente Logik. Es zitierte zudem tendenziell echte wissenschaftliche Arbeiten korrekt. Ein weiterer starker Performer, Mixtral-8×7B, erreichte manchmal die richtige Antwort aus falschen Gründen, indem es Symptomdetails falsch las oder unterstützende Fakten und Referenzen erfand. Die Studie zeigte außerdem, dass die Leistung davon abhing, wie lang die Anfallbeschreibung war, welche klinische Rolle das Modell vorgab und in welcher Sprache gearbeitet wurde. Sehr kurze oder sehr detaillierte Beschreibungen funktionierten am besten, das Vortäuschen einer Spezialistenrolle verbesserte die Ergebnisse, und die Verwendung von Nicht-Englisch konnte die Genauigkeit verringern.
Was das für die künftige Versorgung bedeutet
Die Autorinnen und Autoren kommen zu dem Schluss, dass große Sprachmodelle in einer kontrollierten Umgebung aus unstrukturierten Anfallsberichten nützliche Schätzungen darüber ableiten können, wo Anfälle im Gehirn beginnen. Mit sorgfältig gestalteten Prompts kann ihre Leistung bei dieser engen Aufgabe, Anfallszeichen groben Hirnregionen zuzuordnen, an die von erfahrenen Klinikerinnen und Klinikern heranreichen. Gleichzeitig können die Modelle überzeugend klingen, während sie auf fehlerhafter Logik oder erfundenen Quellen beruhen. Diese Mischung aus Potenzial und Risiko bedeutet, dass solche Systeme eines Tages bei der Priorisierung von Fällen oder der Unterstützung frühzeitiger diagnostischer Überlegungen helfen könnten, aber sie müssen gründlich validiert, eng überwacht und zusammen mit – nicht anstelle von – menschlicher Expertise eingesetzt werden.
Zitation: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z
Schlüsselwörter: Epilepsie, Anfallsemiologie, große Sprachmodelle, diagnostisches Denken, klinische KI-Evaluation