Clear Sky Science · de

Auf dem Weg zu genauerer und interpretierbarer kompetenzbasierter Beurteilung: Verbesserung der klinischen Kompetenzbewertung durch multimodale KI und Anomalieerkennung

2026-02-03 · Zurück zur Übersicht

Warum schlauere Ausbildung für Ärztinnen und Ärzte wichtig ist

Wenn Ärztinnen und Ärzte das Management medizinischer Notfälle üben, bewerten menschliche Prüfer ihre Leistungen häufig anhand von Beobachtungen in simulierten Szenarien. Diese Bewertungen sind für die Patientensicherheit entscheidend, können aber subjektiv sein, zwischen Prüfern variieren und zu grob ausfallen, um Auszubildenden genau zu zeigen, was sie verbessern müssen. Diese Studie stellt ein neues System der künstlichen Intelligenz (KI) vor, das während hochrealistischer Narkosesimulationen sieht und hört und das Beobachtete in eine objektive, interpretierbare Messgröße klinischer Kompetenz übersetzt. Ziel ist es nicht, Expertinnen und Experten zu ersetzen, sondern ihnen eine präzisere, fairere und detailliertere Sicht darauf zu geben, wie Assistenzärzte unter Druck tatsächlich handeln.

Notfälle aus vielen Blickwinkeln beobachten

Die Forschenden konzentrierten sich auf intensivmedizinische Simulationen, die Narkoseassistentinnen und -assistenten in Israel auf ihre staatliche Prüfung vorbereiten. Neunzig Assistenzärzte aus 17 Krankenhäusern bewältigten lebensbedrohliche Krisen in einem realistischen Operationssaal mit einer Ganzkörperpuppe, einer Pflegekraft und einem Assistenzarzt. Jedes Szenario verlief in vier Phasen: eine anfängliche stabile Phase, eine Phase rascher Verschlechterung, aktive Wiederbelebung nach standardisierten Lebenserhaltungsprotokollen und schließlich Stabilisierung und Übergabe. Währenddessen zeichneten Kameras den Raum und den Monitor auf, Mikrofone nahmen Sprache auf und die Anzeige der Vitalparameter wurde digitalisiert. Zertifizierte Anästhesiologinnen und Anästhesiologen vergaben anschließend für jede und jeden eine Gesamtleistungsbewertung von 1 (schwach) bis 5 (vorbildlich).

Verhalten in Datenströme übersetzen

Um diese reichhaltige Szene für KI analysierbar zu machen, wandelte das Team die Video- und Audiodaten in synchronisierte Zeitreihen um. Ein Kanal erfasste, wann der Blick einer Ärztin bzw. eines Arztes auf den Patientenmonitor gerichtet war, mittels Gesichtserkennung und Blickzielabschätzung. Ein zweiter schätzte Position und Bewegung im Raum anhand einer dreidimensionalen Körperposenerkennung. Ein dritter markierte Sprechereignisse, nachdem das Audio bereinigt worden war, um die Stimme der untersuchten Person vom Hintergrundlärm zu trennen. Schließlich lasen die Forschenden Herzfrequenz, Blutdruck, Atemfrequenz und Sauerstoffsättigung direkt von der Monitoranzeige mittels optischer Zeichenerkennung aus und erzeugten daraus kontinuierliche Kurven des physiologischen Zustands. All diese Kanäle wurden frame‑weise synchronisiert und ergaben ein detailliertes Moment‑für‑Moment‑Porträt davon, wie die Assistenzärztinnen und -ärzte schauten, sich bewegten, sprachen und auf den Zustand des Patienten reagierten.

Erlernen des Musters „expertenähnlichen“ Verhaltens

Statt die KI direkt auf menschliche Punktzahlen zu trainieren, verwendeten die Autorinnen und Autoren ein Anomalieerkennungsmodell namens MEMTO, das ursprünglich dafür entwickelt wurde, ungewöhnliche Muster in komplexen Zeitreihen zu erkennen. Zuerst trainierten sie MEMTO ausschließlich mit den besten Leistungen – den auf Rang 5 bewerteten Assistenzärzten –, um zu lernen, wie „ideales“ Verhalten über die Zeit in allen Signalen aussieht. Sobald diese Referenz etabliert war, verarbeitete das Modell jede Simulation und erzeugte für jeden Moment einen Anomaliescore, der widerspiegelt, wie stark das Verhalten dieses Moments vom Expertenmuster abweicht. Diese Anomaliescores wurden anschließend aggregiert und glatt auf die vertraute Skala von 1–5 abgebildet, sodass geringere Abweichungen vom Experten‑Template höhere Kompetenzwerte ergaben.

Was die KI über gute Leistung lernte

Der multimodale Ansatz – die Kombination von Blick, Bewegung, Sprache und Vitalparametern – erwies sich als entscheidend. Trainiert auf Spitzenleistungen stimmten die Modelergebnisse eng mit den Expert:innenbewertungen überein; es zeigten sich starke Korrelationen und Konsistenzmaße, und das Modell reihte die Teilnehmenden fast in der gleichen Reihenfolge wie menschliche Prüfer ein. Im Gegensatz dazu führte die Beschränkung auf einen einzelnen Kanal, etwa nur den Blick, zu deutlich schwächerer Übereinstimmung. Ein Training auf den schlechtesten Leistungen führte ebenfalls zu geringerer Übereinstimmung; das unterstreicht, dass Referenzwerte am Verhalten von Expertinnen und Experten ausgerichtet sein sollten und nicht an häufigen Fehlern. Um die Entscheidungen des Systems verständlich zu machen, nutzte das Team eine Erklärmethode namens SHAP, die aufzeigt, welche Eingaben die Anomaliescores am stärksten beeinflussten. Kommunikation und Blickkontakt mit dem Monitor erwiesen sich als besonders wichtig, vor allem während der Eskalation der Krise und der aktiven Reanimation, während die Vitalparameter bei der Stabilisierung stärker ins Gewicht fielen.

Was das für die zukünftige medizinische Ausbildung bedeutet

Diese Arbeit zeigt, dass KI die klinische Ausbildung über einfache Checklisten oder Bestehensbewertungen hinausbringen kann, indem sie festhält, wie Auszubildende in realistischen Notfallsituationen Sekunde für Sekunde handeln. Indem jede und jeder Assistenzarzt mit einem datengetriebenen Porträt von Expertenleistung verglichen wird, kann das System anzeigen, wenn Kommunikation versagt, die Aufmerksamkeit für den Monitor nachlässt oder Reaktionen auf veränderte Vitalzeichen vom Muster abweichen – Informationen, die zu reichhaltigerem, phasenspezifischem Feedback in Nachbesprechungen führen können. Die Autorinnen und Autoren betonen, dass solche Werkzeuge das menschliche Urteil ergänzen und nicht ersetzen sollten und sorgfältig mit starken Datenschutzmaßnahmen und Fairnessprüfungen eingeführt werden müssen. Dennoch weisen ihre Ergebnisse auf einen Weg zu objektiveren, transparenteren und pädagogisch nützlicheren Bewertungen hin, die sich über Ausbildungsprogramme skalieren lassen und letztlich dazu beitragen können, die Versorgung von Patientinnen und Patienten in der Praxis sicherer zu machen.

Zitation: Gershov, S., Mahameed, F., Raz, A. et al. Towards accurate and interpretable competency-based assessment: enhancing clinical competency assessment through multimodal AI and anomaly detection. npj Digit. Med. 9, 219 (2026). https://doi.org/10.1038/s41746-025-02299-2

Schlüsselwörter: klinische Kompetenzbewertung, medizinische Simulation, multimodale KI, Anomalieerkennung, medizinische Ausbildung