Clear Sky Science · de

Leistungsfähigkeit von DeepSeek bei der Erstellung von Prüfungsfragen während der Weiterbildung in der Radiologie

2026-03-24 · Zurück zur Übersicht

Warum klügere Prüfungsfragen wichtig sind

Figure 1. KI unterstützt Radiologie‑Lehrende beim Erstellen von Prüfungsfragen, während Ärztinnen und Ärzte in Weiterbildung sie zum effektiveren Lernen nutzen.

Was die Forschenden herausfinden wollten

Das Team in China konzentrierte sich auf einen zentralen Bestandteil der Radiologieausbildung: die In‑Training‑Exams, mit denen der Fortschritt von Assistenzärztinnen und -ärzten jährlich erfasst wird. Sie verglichen zwei entsprechende Fragensätze. Der eine Satz wurde von erfahrenen Radiolog:innen gemäß nationaler Ausbildungsstandards erstellt. Der andere Satz wurde auf Chinesisch vom Sprachmodell DeepSeek generiert, wobei sorgfältig gestaltete Prompts Thema, Ausbildungsniveau und Fragetyp vorgaben. Alle Fragen mussten denselben Regeln folgen und wurden vor Anwendung von einer leitenden Radiologin bzw. einem leitenden Radiologen auf Richtigkeit und Fairness geprüft.

Wie das Prüfungsexperiment ablief

Aus diesen Fragenpools wählten die Forschenden zufällig 14 KI‑Fragen und 14 Expert:innen‑Fragen aus und mischten sie zu einem 28‑Fragen‑Online‑Test. Vierzig Assistenzärztinnen und -ärzte im zweiten oder dritten Ausbildungsjahr absolvierten diese Closed‑Book‑Prüfung. Bei jedem Item wählten sie eine Antwort aus, schätzten, ob die Frage von DeepSeek oder von einer Person stammte, und beurteilten Schwierigkeit, Passung zum Curriculum, Gesamtqualität und wie realistisch die klinische Schilderung wirkte. Dieses Design erlaubte es dem Team, nicht nur Punktzahlen zu vergleichen, sondern auch wie die Fragen auf die Lernenden wirkten.

Figure 2. Vergleich zwischen KI‑ und von Menschen verfassten Fragen für einfache Fakten versus komplexe Patientenfälle, um zu zeigen, wo jeweils die Stärken liegen.

Wo die KI mit menschlichen Autoren mithält

Über die gesamte Prüfung gesehen erzielten die Teilnehmenden etwa denselben Anteil richtiger Antworten, unabhängig davon, ob die Fragen von DeepSeek oder von Expert:innen stammten, und sie konnten die Herkunft der Items nur schlecht unterscheiden. Bei der einfachsten Frageform, die auf grundlegende Fakten und klare Regeln abzielte, schnitten die DeepSeek‑Items sehr ähnlich wie die menschlich verfassten ab. Objektive Testkennzahlen, etwa wie gut eine Frage stärkere von schwächeren Teilnehmenden trennt, deuteten ebenfalls darauf hin, dass diese KI‑generierten Basiswissen‑Items im Allgemeinen solide sind. Das bedeutet, dass KI beim Aufbau großer Bestände einfach strukturierter Fragen helfen könnte, die Kernkonzepte festigen und die Arbeitsbelastung der Lehrenden verringern.

Wo menschliches Urteil weiterhin vorn liegt

Das Bild änderte sich, wenn Fragen reichere Patientengeschichten und schwierige Entscheidungen enthielten. Bei mittelkomplexen Fragen mit kurzen klinischen Szenen beantworteten die Teilnehmenden KI‑ und Expert:innen‑Fragen zwar in ähnlicher Häufigkeit korrekt, bewerteten aber die Expertenversionen als realistischer und etwas schwieriger – besonders die erfahreneren Assistenzärztinnen und -ärzte mit mehr Praxisbezug. Bei den komplexesten Fragen, die aus mehrstufigen Fallserien und Urteilssituationen bestanden, erzielten die Teilnehmenden eindeutig höhere Werte bei den von Expert:innen geschriebenen Items als bei DeepSeek‑Versionen. Insbesondere jüngere Trainees schienen eher durch die dünneren, weniger authentischen klinischen Situationen der KI in die Irre geführt oder verwirrt zu werden.

Wie Menschen und KI zusammenarbeiten können

Die Autor:innen schlagen einen gestuften Ansatz vor. DeepSeek und ähnliche Werkzeuge eigenen sich gut dafür, große Mengen an einfachen, klar strukturierten Fragen zu entwerfen, die Standardfakten und Definitionen abdecken. Menschliche Expert:innen sollten wiederum die Verantwortung für Fragen behalten, die prüfen, wie Ärztinnen und Ärzte mit Unsicherheit umgehen, Optionen abwägen und Werte in realen klinischen Situationen anwenden. KI kann zudem helfen, schwächere Fragen zu erkennen, während Expert:innen das nuancierte Verständnis liefern, das nur aus der Patientenversorgung entsteht. Mit klaren Grenzen und sorgfältiger Aufsicht könnte die Kombination von KI und fachlicher Expertise Prüfungen effizienter erstellen und besser messen lassen, was wirklich zählt.

Zitation: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8

Schlüsselwörter: Radiologieausbildung, Prüfungsfragen, künstliche Intelligenz, große Sprachmodelle, medizinische Ausbildung