Clear Sky Science · de
Auswirkungen von KI-Fehlinformationen auf die diagnostische Genauigkeit und die Kalibrierung des Vertrauens bei angehenden Medizinstudierenden
Warum kluge Maschinen Anfänger dennoch in die Irre führen können
Künstliche Intelligenz hält zunehmend Einzug in Hörsäle und Kliniken und verspricht schnelleres Lernen und klügere Entscheidungen. Doch was passiert, wenn Studierende sich auf KI verlassen, um komplexe medizinische Probleme zu verstehen, und die Erklärung überzeugend klingt, aber falsch ist? Diese Studie prüft dieses reale Dilemma bei angehenden Medizinstudierenden und liefert eine beunruhigende Antwort: Irreführende KI-Erklärungen können das Lernen aktiv schädigen, während korrekt erklärte Erklärungen oft deutlich weniger helfen, als man hoffen würde.

Prüfung von drei Arten der KI-Unterstützung
Forscher in China führten eine randomisierte Studie mit 111 angehenden Medizinstudierenden durch, die zwar Grundwissen in den Naturwissenschaften hatten, aber nur wenig klinische Erfahrung. Alle Teilnehmer beantworteten 25 anspruchsvolle, prüfungsähnliche Multiple-Choice-Fragen, die realen Zulassungsprüfungen nachempfunden waren. Eine Gruppe sah nur die Fragen. Eine zweite Gruppe erhielt sorgfältig geprüfte, von Experten bestätigte KI-Erklärungen, die sie zur richtigen Antwort führten. Eine dritte Gruppe bekam KI-ähnliche Erklärungen, die poliert und plausibel wirkten, aber absichtlich eine bestimmte falsche Wahl unterstützten. Nach jeder Frage wählten die Studierenden eine Antwort und bewerteten ihr Vertrauen in diese Entscheidung.
Wenn falsche Anleitung schlimmer ist als keine Hilfe
Die Ergebnisse zeigten ein deutliches Ungleichgewicht zwischen Nutzen und Schaden. Studierende, die die irreführenden Erklärungen erhielten, schnitten deutlich schlechter ab als jene ohne Erklärungen: ihre Trefferrate fiel von etwa einer von fünf Fragen richtig auf weniger als eine von zehn. Im Gegensatz dazu erzielten Studierende mit korrekten KI-Erklärungen nur geringfügig bessere Ergebnisse als die Kontrollgruppe, und der Unterschied war statistisch nicht verlässlich. Mit anderen Worten: polierte, aber falsche Anleitung drängte die Studierenden entscheidend in die falsche Richtung, während polierte und korrekte Erklärungen deren Leistung nicht zuverlässig über das Niveau des Alleinarbeitens hoben.

Selbstsichere Fehler und die „Plausibilitätsfalle”
Das Bild wurde noch beunruhigender, als die Forschenden das Vertrauen betrachteten. Jede KI-Erklärung – ob richtig oder falsch – ließ die Studierenden sich sicherer fühlen als diejenigen, die ohne Hilfe arbeiteten. Allerdings zeigte nur die Gruppe mit korrekten Erklärungen eine gesunde „Kalibrierung“, bei der das Vertrauen bei richtigen Antworten höher war als bei falschen. In der irreführenden Gruppe blieb das Vertrauen hoch, unabhängig davon, ob die Studierenden richtig oder falsch lagen, was bedeutete, dass sie ihr eigenes Sicherheitsgefühl nicht nutzen konnten, um gute von schlechter Argumentation zu unterscheiden. Detaillierte Analysen zeigten, dass die täuschenden Erklärungen Studierende oft gezielt auf eine bestimmte falsche Option lenkten: In der irreführenden Gruppe entfielen mehr als 70 % der falschen Antworten auf genau die Option, die die KI subtil unterstützt hatte. Manche Erklärungen funktionierten als „Halbwahrheiten“ und nutzten korrekte Details, um eine fehlerhafte Schlussfolgerung zu stützen, die Anfänger nur schwer in Frage zu stellen wussten.
Warum das für die medizinische Ausbildung wichtig ist
Diese Befunde bestätigen Bedenken hinsichtlich des „Automationsbias“, bei dem Menschen zu stark auf Computerausgaben vertrauen, anstatt Informationen sorgfältig zu überprüfen. In einem wissensintensiven Bereich wie der Medizin ist die Gefahr nicht nur die falsche Antwort – sondern eine falsche Antwort, die sich vollständig gerechtfertigt anfühlt. Die Studie legt nahe, dass es riskant ist, konversationelle KI einfach als freundlichen Tutor in die Lernroutinen der Studierenden einzuführen, besonders wenn Lernende zu unerfahren sind, subtile Fehler zu erkennen. Die Autorinnen und Autoren plädieren dafür, dass medizinische Fakultäten KI nicht als allwissende Lehrkraft betrachten sollten, sondern als Material für strukturierte "KI-Audit"-Übungen. In solchen Übungen würden Studierende das Zerlegen von KI-Erklärungen üben, Behauptungen gegen vertrauenswürdige Quellen überprüfen und lernen, zwischen flüssig klingender Argumentation und tatsächlich fundierter Argumentation zu unterscheiden.
Was das für angehende Ärztinnen und Ärzte und ihre Werkzeuge bedeutet
Einfach gesagt ist das Fazit der Studie deutlich: Für unerfahrene Medizinstudierende richten schlechte KI-Erklärungen mehr Schaden an, als gute KI-Erklärungen Nutzen stiften. Irreführende Anleitung verringert nicht nur ihre Chancen, die richtige Antwort zu finden, sondern hinterlässt sie auch in falscher Sicherheit bezüglich ihrer Fehler. Um zukünftige Patientinnen und Patienten zu schützen, müssen Lehrende und KI-Entwickler Systeme und Curricula gestalten, die Studierende dazu bringen, langsamer zu arbeiten, gängige KI-Fehlermuster offenzulegen und kritische Überprüfung statt blinden Vertrauens zu fördern. Das Ziel ist nicht, KI abzulehnen, sondern die nächste Generation von Ärztinnen und Ärzten darin zu schulen, sie wohlüberlegt zu hinterfragen, damit intelligente Werkzeuge Partner in sicherer Versorgung werden und nicht Quellen überzeugender Fehlinformationen.
Zitation: Teng, D., Tan, L., Cao, Q. et al. Impact of AI misinformation on diagnostic accuracy and confidence calibration in novice medical students. npj Digit. Med. 9, 356 (2026). https://doi.org/10.1038/s41746-026-02547-z
Schlüsselwörter: KI in der medizinischen Ausbildung, Fehlinformation, diagnostisches Denken, Studentenvertrauen, Automationsbias