Clear Sky Science · de

Verankerung großer Sprachmodelle in der klinischen Diagnostik

2026-03-25 · Zurück zur Übersicht

Intelligentere Hilfe für Ärzte

Wenn Sie einen Arzt aufsuchen, läuft der Weg zu einer korrekten Diagnose selten wie eine einzelne Frage und Antwort ab. Es ist ein sorgfältiges Hin und Her: Der Arzt erkundigt sich nach Ihrer Geschichte, untersucht Sie, ordnet Tests an und wägt dann alle Hinweise gegeneinander ab. Diese Studie untersucht, ob die heutigen leistungsfähigen KI‑Sprachwerkzeuge wirklich bei diesem gesamten Ablauf helfen können, und nicht nur bei kurzen Quiz‑artigen Fragen. Die Forschenden bauen und testen ein spezielles System, das eher wie ein echter klinischer Partner für Ärztinnen und Ärzte agieren soll, und sie untersuchen, wie die Kooperation zwischen Ärzten und diesem System sowohl die Genauigkeit als auch die Geschwindigkeit bei der Ermittlung der Ursache verbessern kann.

Figure 1. Ein KI‑Partner arbeitet mit Ärzten zusammen, um Patienten von den ersten Symptomen zu klareren Diagnosen und besseren Ergebnissen zu führen.

Warum Klinikbesuche für Maschinen schwer sind

Viele Berichte heben hervor, dass große Sprachmodelle in medizinischen Prüfungen oder bei Kurzantworten gut abschneiden. Aber echte Klinikbesuche sind unordentlicher. Ärztinnen und Ärzte beginnen oft nur mit einer kurzen Problembeschreibung und müssen dann schrittweise Details sammeln: wie lange Symptome bestehen, was die körperliche Untersuchung zeigt und welche Labor‑ oder Bildgebungsbefunde vorliegen. In jedem Schritt ändern oder verfeinern sie ihre Hypothesen. Frühere Studien testeten KI meist an sauberen Fällen, in denen alle Informationen bereits vorlagen. Die Autorinnen und Autoren argumentieren, dass das stark von der Praxis abweicht, in der das Auslassen einer einzigen wichtigen Frage oder Untersuchung zu einer falschen Diagnose führen kann.

Ein Testbett aus echten Fällen aufbauen

Um KI realistischer zu beurteilen, entwickelte das Team das ClinDiag‑Framework, das ein Gespräch zwischen einer „Arzt“‑KI und einem „Provider“ simuliert, der Patienteninformationen nur auf Nachfrage preisgibt. Außerdem stellten sie das ClinDiag‑Benchmark zusammen, eine große Sammlung von 4.421 echten klinischen Fällen aus 32 Fachgebieten, darunter schwierige Fälle, Notfallbesuche und seltene Erkrankungen. Jeder Fall ist in Phasen unterteilt, die Kliniknotizen widerspiegeln: Erstbeschwerde, Anamnese, körperliche Untersuchung, Tests und Enddiagnose. Dieses Setting erlaubt es den Forschenden, nicht nur zu prüfen, ob eine KI die richtige Antwort liefert, sondern auch wie gut sie die einzelnen Schritte befolgt, zu denen Menschen in der Ausbildung angeleitet werden.

Eine KI trainieren, die mehr wie ein Arzt denkt

Die Autorinnen und Autoren bauten anschließend ClinDiag‑GPT, ein zugeschnittenes Sprachmodell, das an 7.616 echten Fällen feinabgestimmt wurde, die als mehrstufige Dialoge umgeschrieben wurden und Arzt‑Patient‑Begegnungen nachahmen. In diesen Trainingsszenarien muss die KI‑„Ärztin“ gezielte Fragen stellen, Untersuchungen festlegen, bestätigende Tests anfordern und erst dann zu einer Diagnose kommen. Das System lernt, übliche klinische Gewohnheiten zu befolgen, etwa stets nach Vorerkrankungen und Familienanamnese zu fragen, und nach stichhaltigen Belegen zu suchen, statt bei einer vagen Bezeichnung zu verbleiben. Im Vergleich mit mehreren führenden allgemeinen Modellen erreichte ClinDiag‑GPT die beste Genauigkeit in vollständigen diagnostischen Abläufen und machte in jeder Phase weniger Fehler, darunter seltener Anzeichen für mentale Abkürzungen wie zu schnelles Springen zu einer favorisierten Diagnose oder das Festhalten an einer frühen Vermutung trotz widersprüchlicher neuer Hinweise.

Figure 2. Ein KI‑System verwandelt schrittweise Fragen, Untersuchungen und Tests in klarere diagnostische Entscheidungen und bessere Patientenergebnisse.

Wie gut stimmt KI mit menschlichen Ärzten überein?

Selbst mit diesem Training schnitten alle Modelle in realistischen schrittweisen Diagnosen deutlich schlechter ab als in einfachen Frage‑Antwort‑Tests, was unterstreicht, wie anspruchsvoll die klinische Praxis bleibt. Dennoch hob sich ClinDiag‑GPT hervor: Es sammelte vollständigere Informationen, schlussfolgerte klarer und interpretierte weniger Tests falsch als die anderen KI‑Systeme. Die Forschenden untersuchten auch Erweiterungen wie die Kombination mehrerer KI‑„Ärzte“ oder das Hinzufügen eines KI‑Kritikers, doch diese verbesserten die Leistung nicht zuverlässig. Deutlich größere Fortschritte erzielte die gezielte Feinabstimmung auf reale diagnostische Arbeitsabläufe.

Ärzte und KI arbeiten Seite an Seite

Der praktischste Test war vielleicht ein Drei‑Wege‑Vergleich: allein arbeitende Ärztinnen und Ärzte, ClinDiag‑GPT allein und Ärztinnen und Ärzte zusammen mit ClinDiag‑GPT. In einer Stichprobe von 60 gemischten Fällen erzielte die Partnerschaftsgruppe die höchste diagnostische Genauigkeit und schloss Fälle schneller ab als allein arbeitende Ärzte. Die Vorteile waren am stärksten bei seltenen und besonders kniffligen Erkrankungen, bei denen das breite medizinische Wissen des Modells die klinische Einschätzung und das Urteil der Ärztin oder des Arztes ergänzen konnte. Gleichzeitig verfehlte oder handhabte die KI viele Fälle immer noch fehlerhaft und neigte dazu, selbstsicherer zu klingen, als ihre Ergebnisse gerechtfertigt hätten, was die Notwendigkeit sorgfältiger menschlicher Aufsicht betont.

Was das für Patientinnen und Patienten bedeutet

Die Studie zeigt, dass die heutigen führenden Sprachmodelle weit davon entfernt sind, Ärztinnen und Ärzte in echten Kliniken zu ersetzen, aber ein zweckgerichtetes System wie ClinDiag‑GPT kann bereits als nützliche Assistenz dienen. Indem es den diagnostischen Prozess gründlicher macht und zusätzliche Hinweise in schwierigen oder seltenen Fällen liefert, kann es Ärztinnen und Ärzte dabei unterstützen, bessere und schnellere Entscheidungen zu treffen. Für Patientinnen und Patienten deutet das auf eine Zukunft hin, in der Ihr Arzt mit einem unaufdringlichen KI‑Partner im Hintergrund zusammenarbeitet, dessen breites medizinisches Wissen dabei hilft, übersehene Hinweise zu verringern und sicherzustellen, dass komplexe Diagnosen mit größerer Sorgfalt gestellt werden.

Zitation: Chen, X., Zhou, H., Yi, H. et al. Grounding large language models in clinical diagnostics. Nat Commun 17, 4401 (2026). https://doi.org/10.1038/s41467-026-70274-w

Schlüsselwörter: klinische Diagnostik, medizinische KI, große Sprachmodelle, Arzt‑KI‑Zusammenarbeit, diagnostische Genauigkeit