Clear Sky Science · de
Mehrdimensionale vergleichende Bewertung von DeepSeek und ChatGPT beim USMLE versus CNMLE für die medizinische Ausbildung
Warum klügere Prüfungshelfer wichtig sind
Angehende Ärztinnen und Ärzte weltweit müssen anspruchsvolle Lizenzprüfungen bestehen, bevor sie Patienten behandeln dürfen. Gleichzeitig werden leistungsfähige Chatbots auf Basis großer Sprachmodelle immer häufiger zu Studienpartnern. Dieser Artikel untersucht genau, wie zwei solche Systeme, DeepSeek und ChatGPT, mit den medizinischen Zulassungsprüfungen der USA (USMLE) und Chinas (CNMLE) umgehen, und stellt eine einfache, aber weitreichende Frage: Können diese Werkzeuge wirklich dabei helfen, sichere und gut vorbereitete Ärztinnen und Ärzte auszubilden — und wenn ja, unter welchen Schutzmaßnahmen?

Zwei große Prüfungen, zwei starke Werkzeuge
Die Forschenden konzentrierten sich auf den USMLE und den CNMLE, nationale Prüfungen, die ein breites Spektrum medizinischen Wissens abfragen, von Grundlagenfächern bis zur klinischen Entscheidungsfindung. Sie sammelten Hunderte echter Fragen: 243 aus dem USMLE-Beispieltest und 300 aus der CNMLE-Fragensammlung, mit Themen wie Innere Medizin, Chirurgie, Pädiatrie, Psychiatrie und mehr. Fragen, die die Betrachtung medizinischer Bilder erforderten, wurden entfernt, sodass beide Systeme nur textbasierte Aufgaben bearbeiteten. Das Team befragte danach je zwei Versionen der Systeme — GPT-4o-mini für ChatGPT und DeepSeek-R1 für DeepSeek — in Englisch und Chinesisch, mit einfachen Anweisungen, die dem entsprechen, wie eine echte Studentin oder ein echter Student beim Lernen um Hilfe bitten würde.
Wer antwortete besser und wie verlässlich?
Um die Werkzeuge fair zu vergleichen, führten die Forschenden jede Prüfung dreimal mit jedem System durch und maßen, wie oft die Antworten mit dem offiziellen Lösungsschlüssel übereinstimmten. Bei den USMLE-Fragen beantwortete DeepSeek etwa 93 % korrekt, leicht vor ChatGPT mit rund 90 %. Bei der CNMLE lag DeepSeek ähnlich vorn und erreichte etwa 87 % gegenüber 79 % bei ChatGPT. DeepSeek übertraf ChatGPT in allen drei USMLE-Stufen, einschließlich des komplexesten Abschnitts zur klinischen Entscheidungsfindung, und in allen vier CNMLE-Einheiten, besonders in Bereichen mit vielen chinesischsprachigen Grundlagen- und klinischen Inhalten. Das Team prüfte auch die Stabilität der Systeme bei wiederholten Durchläufen und fand, dass beide hohe Konsistenz zeigten, wobei DeepSeek erneut leicht stärker war.
Denkprozesse offenlegen, aber manchmal zu langsam
Moderne Sprachmodelle legen häufig ihre Schlussfolgerungen Schritt für Schritt dar, ähnlich wie eine Studentin oder ein Student, der seine Logik aufschreibt. Die Forschenden zählten die Anzahl der Zeichen in diesen Erklärungen als grobes Maß dafür, wie viel „Denkarbeit“ jedes System zeigte. Beim USMLE waren die beiden Werkzeuge ähnlich und lieferten Begründungen von vergleichbarer Länge. Bei der CNMLE jedoch erzeugte DeepSeek deutlich längere Erklärungen, was auf tiefere oder ausführlichere Argumentationsketten bei komplexen chinesischen medizinischen Fragen hindeutet. Der Preis dafür war die Geschwindigkeit: DeepSeek benötigte länger für beide Prüfungen, insbesondere für die CNMLE, während ChatGPT schneller antwortete. Anders gesagt: DeepSeek tendierte zu höherer Genauigkeit und Wortfülle, ChatGPT bevorzugte Effizienz.

Versprechen, Fallstricke und ein neues Sicherheitsnetz
Trotz der hohen Werte — im Durchschnitt besser als viele menschliche Prüflinge — machten beide Systeme weiterhin bedeutsame Fehler. In einigen Fällen wählten sie plausibel klingende, aber falsche Behandlungen oder missverstanden feine Konzepte, ein bekanntes Problem, das als „Halluzination“ bezeichnet wird, bei dem das Modell Fakten sicher erfindet oder falsch anwendet. Zugleich zeigten sie überraschende Stärken, etwa das Erkennen fehlerhafter Prüfungsfragen, die gar keine richtige Antwort hatten. Da die medizinische Ausbildung eng mit Patientensicherheit verknüpft ist, plädieren die Autorinnen und Autoren dafür, diese Werkzeuge als Helfer und nicht als Autoritäten zu behandeln. Zur Unterstützung eines sichereren Einsatzes schlagen sie eine technische „Fact-Checking-Schleife“ vor, die das Modell mit einem sorgfältig aufgebauten medizinischen Wissensgraphen verbindet. Wenn das Modell eine Frage beantwortet, würden seine Aussagen zerlegt, gegen vertrauenswürdige Quellen wie Leitlinien und Lehrbücher geprüft und mit Konfidenzstufen versehen, bevor sie Lernenden angezeigt werden.
Was das für die künftige medizinische Ausbildung bedeutet
Für Nicht-Expertinnen und Nicht-Experten ist die Botschaft ermutigend, aber vorsichtig. DeepSeek und ChatGPT erzielen bereits auf schriftlichen Prüfungen Leistungen auf oder über dem Niveau vieler Medizinstudierender, was darauf hindeutet, dass sie das Lernen, Trainingsfragen und sogar die Neugestaltung der Lehre hin zu ausführlicheren, schrittweisen Begründungen sinnvoll unterstützen können. Ihre Fehler — und die Undurchsichtigkeit ihrer Schlussfindung — bedeuten jedoch, dass sie menschliche Lehrende oder approbierte Klinikerinnen und Kliniker nicht ersetzen können. Die Autorinnen und Autoren sehen eine Zukunft, in der solche Systeme als eng beaufsichtigte „Assistenzcoaches“ für Lernende in der Medizin dienen, eingebettet in ein System, das Evidenz verlangt, Zuverlässigkeit nachverfolgt und menschliches Urteil fest in der Verantwortung behält. Wenn sie sorgfältig entwickelt und reguliert werden, könnten diese KI-Helfer die medizinische Ausbildung schrittweise von einfachem Auswendiglernen zu einem interaktiveren, generativen Lernen verschieben — ohne das übergeordnete Ziel aus den Augen zu verlieren: sicherere Versorgung für reale Patientinnen und Patienten.
Zitation: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2
Schlüsselwörter: KI in der medizinischen Ausbildung, große Sprachmodelle, USMLE-Leistung, Chinesische medizinische Lizenzprüfung, Fact-Checking-Rahmen