Clear Sky Science · de

Vergleichende Leistung aktueller und früherer großer Sprachmodelle und pädiatrischer Assistenzärzte bei Prüfungsfragen der pädiatrischen Fortbildung

· Zurück zur Übersicht

Warum das für Ärzte und Familien wichtig ist

Da KI‑Werkzeuge zunehmend in Krankenhäusern und medizinischen Fakultäten Einzug halten, ist eine zentrale Frage einfach: Können diese Systeme wirklich das Urteilsvermögen von Ärzten in Ausbildung erreichen, insbesondere wenn es um die Gesundheit von Kindern geht? Diese Studie untersucht, wie mehrere führende KI‑Sprachmodelle bei pädiatrischen Prüfungsfragen abschneiden und was das für Versorgung und Ausbildung künftig bedeuten könnte.

KI mit echten Prüfungsfragen testen

Die Forschenden sammelten 498 Fragen aus pädiatrischen Fortbildungsprüfungen, die zwischen 2016 und 2023 an einem großen Kinderkrankenhaus in Korea abgelegt wurden. Diese Prüfungen dienen dazu, den Fortschritt der Assistenzärzte während ihrer vierjährigen Ausbildung zu messen. Die meisten Fragen waren Multiple‑Choice und deckten ein breites Spektrum an Fachgebieten ab, von Neugeborenenversorgung und Infektionen bis hin zu Herzkrankheiten und Intensivmedizin. Etwa eine von fünf Fragen enthielt medizinische Bilder wie Röntgenaufnahmen, Scans oder klinische Fotografien, während der Rest nur auf schriftlichen Beschreibungen beruhte.

Figure 1. KI-Systeme und pädiatrische Assistenzärzte werden bei schriftlichen Prüfungsfragen verglichen, die das Wissen über Kinderheilkunde testen.
Figure 1. KI-Systeme und pädiatrische Assistenzärzte werden bei schriftlichen Prüfungsfragen verglichen, die das Wissen über Kinderheilkunde testen.

Wie die Studie Menschen und Maschinen verglich

Sechs bekannte KI‑Sprachmodelle wurden getestet, die drei große Systemfamilien und jeweils zwei Generationen pro Familie repräsentierten: frühere Versionen und neuere Versionen mit visuellen Fähigkeiten. Den Modellen wurden komplette Prüfungshefte präsentiert, nicht einzelne Fragen, und sie mussten selbst herausfinden, welche Teile der Frage‑Text, welche die Antwortoptionen und welche die Bilder waren. Die Fragen waren ursprünglich auf Koreanisch mit englischen Medizinbegriffen verfasst; sorgfältig geprüfte Übersetzungen wurden bereitgestellt. Sowohl die Assistenzärzte als auch die KIs wurden nach denselben Regeln bewertet; eine Antwort galt als korrekt, wenn sie mit der offiziellen Lösung oder einem akzeptierten Synonym übereinstimmte. Um die Stabilität der Systeme zu prüfen, wurde jeder Testsatz fünfmal durchlaufen und die Konsistenz der Ergebnisse über die Durchläufe berechnet.

Wie gut die KI im Vergleich zu pädiatrischen Assistenzärzten abschnitt

Die Leistung wurde als Anteil korrekt beantworteter Fragen zusammengefasst. Wie erwartet stiegen die menschlichen Werte mit dem Ausbildungsstand: Assistenzärzte im ersten Jahr beantworteten etwas mehr als die Hälfte der Fragen richtig, während Assistenzärzte im vierten Jahr etwa 70 Prozent erreichten. Die neueren KI‑Modelle schnitten insgesamt noch besser ab und erzielten rund 78 Prozent über alle Fragen hinweg und übertrafen damit deutlich die erfahrensten Assistenzärzte. Frühere KI‑Versionen lagen ungefähr auf dem Niveau der senioren Assistenzärzte. Betrachtete man nur Textfragen, übertrafen die aktuellen Modelle die Assistenzärzte im vierten Jahr um etwa zehn Prozentpunkte. Die KI‑Systeme zeigten zudem sehr konstante Ergebnisse von Durchlauf zu Durchlauf mit nahezu identischen Werten.

Figure 2. KI-Modelle bewältigen Textfragen besser als bildbasierte Fragen bei der Beantwortung pädiatrischer Prüfungsaufgaben.
Figure 2. KI-Modelle bewältigen Textfragen besser als bildbasierte Fragen bei der Beantwortung pädiatrischer Prüfungsaufgaben.

Wobei die KI bei Bildern noch Probleme hat

Anders sah es aus, sobald medizinische Bilder ins Spiel kamen. Bei Fragen mit Bildern übertraf keines der KI‑Systeme die erfahrenen Assistenzärzte. Neuere Modelle schnitten besser ab als ihre Vorgänger und erreichten bei diesen visuellen Aufgaben Mittelwerte um die 70er‑Prozent‑Spanne, blieben damit jedoch hinter ihrer starken Leistung bei Textfragen zurück. Dieses Muster zeigte sich über verschiedene Bildtypen hinweg — Röntgenaufnahmen, Scans und klinische Fotos — und über ein breites Spektrum pädiatrischer Themen. Die Ergebnisse stehen im Einklang mit anderen Studien, die nahelegen, dass Sprachmodelle beim Lesen und Schlussfolgern mit Text stark sind, ihre Fähigkeit zur Interpretation medizinischer Bilder, insbesondere bei Kindern, aber noch begrenzt ist.

Was das für Versorgung und Ausbildung bedeutet

Die Autorinnen und Autoren sehen die Ergebnisse als ermutigend für die Ausbildung, zugleich aber als warnend für den direkten klinischen Einsatz. Hohe und stabile Werte bei schriftlichen Prüfungsfragen deuten darauf hin, dass solche Systeme als nützliche Lernpartner dienen könnten, indem sie pädiatrischen Assistenzärzten schnelle Übungsfragen und Erklärungen bieten. Erfolg bei Multiple‑Choice‑Tests garantiert jedoch keine sichere Leistung am Patienten, wo Informationen unordentlicher sind, Entscheidungen komplexer sind und die Bildinterpretation entscheidend sein kann. Kurz gesagt: Die heutigen multimodalen KI‑Werkzeuge können bereits mit erfahrenen Assistenzärzten bei schriftlichen pädiatrischen Prüfungen konkurrieren, bleiben aber bei bildintensiven Aufgaben hinterher und sind noch nicht bereit, menschliches Urteil in der Klinik zu ersetzen.

Zitation: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Schlüsselwörter: Pädiatrie, große Sprachmodelle, medizinische Prüfungen, klinische Entscheidungsunterstützung, medizinische Ausbildung