Clear Sky Science · de

Fortschritte bei konversationaler diagnostischer KI mit multimodalem Schlussfolgern

2026-05-14 · Zurück zur Übersicht

Warum klügere Online-Gesundheitschats wichtig sind

Viele von uns wenden sich heute an Online-Chats oder Apps, wenn wir uns unwohl fühlen, und senden Fotos von Hautausschlägen, Abbildungen von Testergebnissen oder Herzkurven aus einer Uhr. Dennoch arbeiten die meisten Gesundheits-Chatbots weiterhin nur mit Text und ignorieren diesen reichen Strom an Bildern und Dokumenten. Dieses Papier untersucht eine neue Art von medizinischem KI-Assistenten, der sehen und sprechen kann und Bilder sowie Befunde in ein Gespräch einwebt – ähnlich wie ein aufmerksamer Arzt bei einer Telemedizin-Sitzung.

Figure 1. KI-Assistent, der Chat mit medizinischen Fotos und Befunden verbindet, um Ferndiagnosen zu unterstützen.

Eine neue Art medizinischer Helfer

Die Forschenden entwickelten eine aktualisierte Version eines Systems namens Articulate Medical Intelligence Explorer, kurz AMIE. Statt nur zu lesen und zu schreiben, kann dieses neue multimodale AMIE während eines Chats Hautfotos, Elektrokardiogramm-Bilder und klinische Dokumente empfangen. Es zieht dann all dies zusammen mit der schriftlichen Schilderung der Patientin oder des Patienten in seine Überlegungen ein. Im Kern läuft AMIE auf einem leistungsfähigen allgemeinen Sprach‑ und Visionsmodell, ist aber in ein Rahmenwerk eingebettet, das es durch die typischen Phasen einer medizinischen Konsultation führt: Fragen stellen, wahrscheinliche Ursachen bilden und nächste Schritte vorschlagen.

Geführte Gespräche, die sich anpassen

Echte Ärztinnen und Ärzte stellen keine Fragen zufällig. Sie hören zu, bilden sich ein Bild vom Patienten und passen ihre Fragen an, sobald neue Hinweise auftauchen. Um dies nachzuahmen, entwarf das Team einen sogenannten zustandsbewussten Dialograhmen. Während sich der Chat entfaltet, führt AMIE eine interne Zusammenfassung der Anamnese, Symptome und aller hochgeladenen Bilder oder Dokumente. Es führt außerdem eine verborgene Liste möglicher Diagnosen und Wissenslücken. Dieser interne Zustand hilft AMIE zu entscheiden, wann weiter nach der Vorgeschichte gefragt werden sollte, wann ein Foto oder EKG angefordert werden muss, wann genug Informationen vorliegen, um wahrscheinliche Ursachen zu skizzieren, und wie es erklären kann, was es in den Bildern sieht.

Figure 2. Stufige Pipeline, in der gemischte Chats und medizinische Bilder zu klareren Diagnosen und Behandlungsplänen verarbeitet werden.

KI und Ärztinnen/Ärzte im Vergleich

Um zu prüfen, wie gut das multimodale AMIE abschneidet, führte das Team eine große, simulierte Telemedizin‑Prüfung durch, die den praxisnahen Prüfungen in medizinischen Fakultäten ähnelt. Schauspielerinnen und Schauspieler übernahmen 105 unterschiedliche Szenarien, die sowohl Gesprächsführung als auch die Interpretation visuellen Materials erforderten, wie Hautbilder, Herzkurven oder Laborberichte. Jede Schauspielperson hatte zwei separate Text‑Chats: einen mit einer approbierten Hausärztin bzw. einem approbierten Hausarzt und einen mit dem KI‑System, ohne zu wissen, welches welches war. Anschließend füllten die menschlichen Kliniker und die KI strukturierte Zusammenfassungen ihrer Diagnosen und Pläne aus. Unabhängige Fachärztinnen und Fachärzte sowie die Schauspielpatientinnen und -patienten beurteilten anschließend die Qualität jeder Konsultation.

Wie sich das neue System schlug

Über die Szenarien hinweg waren die Diagnosen von multimodalem AMIE häufiger korrekt als die der Hausärztinnen und Hausärzte, sowohl bei der Top‑Wahl als auch in einer breiteren Liste möglicher Diagnosen. Fachärztinnen und Fachärzte bewerteten zudem AMIEs Schlussfolgerungen, den Einsatz von Bildern und den Umgang mit Patientenfragen zu diesen Bildern in den meisten Bereichen ebenso gut oder besser als die der Ärztinnen und Ärzte. Bemerkenswert ist, dass bei Bildern schlechterer Qualität sowohl die KI als auch die Ärzteschaft schlechter abschnitten, die Genauigkeit der KI aber weniger stark sank. Die Schauspielpatientinnen und -patienten bewerteten die KI mindestens so hoch wie die Ärztinnen und Ärzte in Höflichkeit, Klarheit, Empathie und Bereitschaft, wiederzukommen, und empfanden, dass die KI die in den hochgeladenen Bildern gesehenen Befunde besser ansprach und erklärte.

Untersuchung der inneren Arbeitsweise

Die Autorinnen und Autoren untersuchten außerdem, warum das System so funktioniert. In computerbasierten Simulationen verglichen sie die Vollversion von AMIE mit einer einfacheren Version ohne die strukturierte, zustandsbewusste Schlussfolgerung. Das vollständige System stellte nicht nur genauere Diagnosen, sondern sammelte auch Informationen effektiver und erstellte geeignetere Behandlungspläne. Als sie den Dialog entfernten und das Modell nur anhand der Bilder arbeiten ließen, verschlechterte sich die Leistung deutlich – ein Hinweis darauf, dass Gesprächsführung und Anamneseerhebung selbst für eine sehfähige KI noch wichtig sind. Weitere Tests deuteten darauf hin, dass ein reines Feintuning des zugrundeliegenden Modells auf enge medizinische Aufgaben bestimmte Fähigkeiten verbessern, andere jedoch beeinträchtigen könnte; deshalb konzentrierten sich die Autorinnen und Autoren stattdessen auf ein sorgfältiges Design des darüber liegenden Schlussfolgerungsprozesses.

Was das für die künftige Versorgung bedeuten könnte

Die Studie legt nahe, dass KI‑Systeme, die Reden und Sehen kombinieren, eines Tages Ärztinnen und Ärzte bei komplexen Fernkonsultationen sicherer und effizienter unterstützen könnten. Indem sie patientenseitig bereitgestellte Fotos, Herzkurven und Dokumente innerhalb eines durchdachten Gesprächs interpretieren, erreichte multimodales AMIE in dieser kontrollierten Umgebung häufig die Leistung von Hausärztinnen und Hausärzten oder übertraf sie, während es starke Werte in Empathie und Kommunikation hielt. Die Autorinnen und Autoren betonen, dass es sich weiterhin um explorative Forschung handelt, nicht um eine klinische Studie im realen Umfeld, und dass noch viel zu tun ist, um Sicherheit, Fairness und Auswirkungen im Alltag zu prüfen. Dennoch zeigt die Arbeit in Richtung einer Zukunft, in der KI‑Werkzeuge als fähige Partner in der Telemedizin dienen und Patientinnen, Patienten sowie Klinikerinnen und Klinikern helfen, die bereits über unsere Bildschirme fließenden Bilder und Informationen besser zu nutzen.

Zitation: Saab, K., Park, C., Strother, T. et al. Advancing conversational diagnostic AI with multimodal reasoning. Nat Med 32, 1726–1736 (2026). https://doi.org/10.1038/s41591-026-04371-0

Schlüsselwörter: multimodale medizinische KI, Telemedizin, diagnostische Konversation, klinische Entscheidungsunterstützung, medizinische Chatbots