Clear Sky Science · de

Bewertung der Übereinstimmung zwischen großen Sprachmodellen und veröffentlichten Schlussfolgerungen klinischer Studien über vier KI‑Plattformen hinweg

· Zurück zur Übersicht

Warum das für die alltägliche Gesundheitsversorgung wichtig ist

Ärztinnen und Ärzte stützen sich auf große klinische Studien, um zu entscheiden, welche Behandlungen sicher und wirksam sind. Gleichzeitig werden neue KI‑Werkzeuge immer besser darin, medizinische Forschung zu lesen und zusammenzufassen. Diese Studie stellt eine einfache, aber wichtige Frage für Patientinnen, Patienten und Kliniker: Wenn diese Werkzeuge dieselben Studien lesen wie menschliche Expertinnen und Experten, kommen sie dann zu denselben abschließenden Schlussfolgerungen darüber, was wirkt und was nicht?

Wie die Forschenden die KI‑Werkzeuge getestet haben

Das Team konzentrierte sich auf 20 bekannte klinische Studien, veröffentlicht im New England Journal of Medicine, zu Herzkrankheiten, Schlaganfall, Diabetes, Krebs und Neurochirurgie. Diese Studien wurden ausgewählt, weil sie sorgfältig geplant und klar berichtet sind, was sie zu einem starken Prüfstand macht. Anstatt die kompletten Artikel an die KI‑Systeme zu geben, stellten die Forschenden nur die Tabellen und Abbildungen mit den Zahlen bereit, etwa Ereignisraten und Ergebnisdiagramme. Dadurch mussten die Systeme sich auf die Daten selbst stützen, statt einfach die geschriebenen Zusammenfassungen der Autorinnen und Autoren zu übernehmen.

Figure 1. Wie verschiedene KI‑Werkzeuge dieselben medizinischen Studien lesen und mit den Schlussfolgerungen von Ärztinnen und Ärzten in Einklang stehen.
Figure 1. Wie verschiedene KI‑Werkzeuge dieselben medizinischen Studien lesen und mit den Schlussfolgerungen von Ärztinnen und Ärzten in Einklang stehen.

Was die KI‑Systeme tun sollten

Getestet wurden vier weit verbreitete große Sprachmodelle: ChatGPT, Gemini, Grok3 und Claude. Jedes Modell erhielt denselben standardisierten Prompt und sollte die Daten in fünf Punkten interpretieren. Die Modelle mussten die Gesamtergebnisse erklären, die Statistik einordnen, die Relevanz für die Patientenversorgung herstellen, Studienbegrenzungen benennen und vorschlagen, wie die Befunde praktisch angewendet werden könnten. Zwei geschulte Analytiker verglichen anschließend jede KI‑Antwort mit dem Originalstudienpapier und bewerteten die Leistung in jedem dieser fünf Bereiche auf einer Skala von null bis fünf.

Wie gut die KI mit menschlichen Schlussfolgerungen übereinstimmte

ChatGPT zeigte die stärkste Übereinstimmung mit den veröffentlichten Studienergebnissen und erreichte einen perfekten Medianscore von 25 von 25 über die 20 Studien hinweg. Dahinter folgte Gemini mit 21 von 25, während Grok3 und Claude mit Medianscores von 18 bzw. 17 zurücklagen. Alle vier Werkzeuge schnitten am besten darin ab, zu beschreiben, warum die Ergebnisse für Patienten wichtig sind; ChatGPT erzielte in jedem Bereich die Spitzenbewertung. Gemini erkannte zudem Studien‑Schwächen und mögliche Störfaktoren gut, während Grok3 und Claude weniger zuverlässig darin waren, Limitationen zu erkennen und praktische Behandlungsempfehlungen zu geben. Die beiden menschlichen Bewerter stimmten eng überein, was darauf hindeutet, dass die Bewertungsmethode selbst stabil war.

Figure 2. Schritt‑für‑Schritt‑Darstellung, wie KI aus Studienzahlen Urteile über Behandlungen und deren Grenzen ableitet.
Figure 2. Schritt‑für‑Schritt‑Darstellung, wie KI aus Studienzahlen Urteile über Behandlungen und deren Grenzen ableitet.

Vorsicht wegen verstecktem Training und Sicherheit in der Praxis

Obwohl die Zahlen eindrucksvoll wirken, warnen die Autorinnen und Autoren davor, die Ergebnisse unkritisch zu interpretieren. Die verwendeten Studien sind bekannt und dürften bereits in den Trainingsdaten dieser KI‑Systeme aufgetaucht sein. Das bedeutet, die Werkzeuge könnten diese Studien schon »kennen« und Muster wiedergeben, die sie zuvor gesehen haben, statt unabhängig aus den vorgelegten Tabellen zu schlussfolgern. Die fehlende Verblindung darüber, welches System welche Antwort lieferte, lässt zudem Raum für subtile menschliche Bewertungs‑Bias. Außerdem hatten die ausgewählten Studien überwiegend klare, positive Ergebnisse, was ein Best‑Case‑Szenario darstellt und nicht das oft unübersichtliche und unsichere Forschungsfeld widerspiegelt, das reale Entscheidungen prägt.

Was das für die zukünftige Versorgung bedeutet

Für Laien ist die Kernbotschaft, dass einige KI‑Werkzeuge, insbesondere ChatGPT und Gemini, häufig medizinische Studiendaten lesen und mit Experten‑Schlussfolgerungen übereinstimmen können — zumindest bei gut bekannten, hochwertigen Studien. Das deutet darauf hin, dass sie nützliche Hilfen beim Zusammenfassen komplexer Forschung und beim Ordnen von Evidenz sein können, sie sind jedoch nicht bereit, Ärztinnen und Ärzte oder Forschende zu ersetzen. Ihre Trainingsgeschichte ist undurchsichtig, ihre Leistung variiert zwischen den Plattformen, und ihre Antworten sind nicht als sichere Grundlage für direkte Behandlungsentscheidungen nachgewiesen. Die Autorinnen und Autoren plädieren dafür, KI als mächtigen Assistenten zu sehen, der Zahlen sichten und Muster hervorheben kann, während menschliche Kliniker weiterhin für Urteil, Empathie und die endgültigen Entscheidungen in der Patientenversorgung verantwortlich bleiben.

Zitation: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Schlüsselwörter: große Sprachmodelle, klinische Studien, medizinische KI, Evidenzsynthese, klinische Entscheidungsunterstützung