Clear Sky Science · de
Vision-gestützte KI-Sekretäre reduzieren Auslassungen in klinischen Gesprächen: Belege aus simulierten Medikationsanamnesen
Schlauere digitale Helfer in der Klinik
Wer schon einmal im Wartezimmer eines Arztes saß und beobachtet hat, wie ein Behandler hektisch in einen Computer tippt, hat eine versteckte Belastung der modernen Medizin gesehen: die Bürokratie. Neue „KI-Sekretäre“ versprechen, Visiten mitzuhören und automatisch Berichte zu entwerfen, sodass Behandelnde mehr Zeit für Gespräche mit Patientinnen und Patienten haben. Die meisten dieser Werkzeuge hören jedoch nur, was gesagt wird; sie können nicht sehen, was gezeigt wird. Diese Studie stellt eine einfache Frage mit großen Folgen für die Sicherheit: Was wäre, wenn ein KI-Sekretär auch die Medikamentenfläschchen auf dem Tisch sehen könnte?

Warum Sehen genauso wichtig ist wie Hören
In echten medizinischen Begegnungen sind entscheidende Informationen oft visuell. Patientinnen und Patienten bringen Schachteln und Flaschen mit kleingedruckten Etiketten mit, demonstrieren Inhalatoren oder Injektoren oder zeigen Allergiearmbänder am Handgelenk. Subtile Hinweise wie Aussehen und Haltung können darauf hindeuten, wie gut jemand zurechtkommt. Traditionelle KI-Sekretäre verarbeiten nur Audio; alle Details, die nie laut ausgesprochen werden—etwa die genaue Stärke auf einem Pillenfläschchen—gehen daher verloren. Wenn das Ziel darin besteht, eine genaue Liste der eingenommenen Medikamente zu erstellen, können das Auslassen einer Dosis oder die Verwechslung zweier ähnlicher Produkte schwerwiegende Folgen haben.
Brillen, Video und ein neuer Typ KI-Sekretär
Um diese Lücke zu schließen, entwickelten die Forschenden einen vision-gestützten KI-Sekretär, der sowohl Ton als auch Bilder verarbeiten kann. Sie kombinierten Ray-Ban-Smartbrillen, die Video und Audio aus der Perspektive der Behandelnden aufzeichnen, mit einem hochmodernen KI-Modell, das Sicht- und Höreindrücke gemeinsam interpretieren kann. Zehn klinische Apothekerinnen und Apotheker führten 110 realistische Medikationsanamnesegespräche vor, jeweils mit drei bis fünf Medikamenten und realer Verpackung. Das Team nutzte 10 Aufnahmen, um Prompts—klare Anweisungen, die der KI genau sagen, was zu extrahieren ist—feinzustimmen, sperrte dann diese Einstellungen und testete das System an den verbleibenden 100 Aufnahmen.
Wie gut sich der KI-Sekretär schlug
Für jedes Gespräch erstellten menschliche Apothekerinnen und Apotheker eine sorgfältige Referenzliste, einschließlich Name der Patientin oder des Patienten, Geburtsdatum, Allergien, Name, Stärke und Darreichungsform jedes Medikaments, Dosierungsplan, Grund der Anwendung und etwaiger zusätzlicher Hinweise. Die Aufgabe der KI bestand darin, aus dem Video dieselbe strukturierte Zusammenfassung zu erzeugen. Über 2.160 einzelne Datenpunkte lag die Trefferquote des vision-gestützten Sekretärs bei 98 Prozent. Bei grundlegenden Patientendaten war die Leistung etwas geringer (96 Prozent) und bei medikationsbezogenen Punkten wie Dosierungsangaben und Indikation etwas höher (jeweils 99 Prozent). Die meisten der insgesamt 46 Fehler waren „Kommissionsfehler“—etwas falsch zu vermerken—etwa die Verwechslung ähnlicher Medikamentennamen oder -stärken. Nur 10 waren Auslassungen, bei denen die KI ein Feld leer ließ, obwohl die Information vorhanden war.

Warum das Hinzufügen von Sichtinformation den Unterschied machte
Das Team untersuchte dann, wie sehr der visuelle Input tatsächlich half, indem es dieselben 100 Gespräche nur über die Audiospur durch die KI laufen ließ. Die Genauigkeit fiel deutlich auf 81 Prozent. Der größte Einbruch zeigte sich bei der Dokumentation von Stärke und Darreichungsform der Medikamente, die mit Video noch zu 97 Prozent korrekt waren, mit nur Audio jedoch auf 28 Prozent sanken—ein klares Indiz dafür, dass das Lesen von Etiketten entscheidend ist. Die Auslassungen stiegen von 10 mit Video auf 358 bei Audio-only, was zeigt, dass viele Informationen schlichtweg nie laut ausgesprochen wurden. Für viele Felder, insbesondere Medikamentennamen und Dosierungsdetails, verringerte das „Hinsehen“ der KI Lücken und Missverständnisse deutlich.
Was das für die künftige Versorgung bedeuten könnte
Obwohl die Ergebnisse beeindruckend sind, betonen die Autorinnen und Autoren, dass diese Technologie noch nicht bereit ist, menschliches Urteilsvermögen zu ersetzen. Die Studie nutzte simulierte Begegnungen in kontrollierten Umgebungen mit klaren Etiketten und guter Beleuchtung, und die KI machte dennoch 46 Fehler, die ein Kliniker oder eine Klinikerin hätte abfangen müssen. In echten Kliniken herrschen lautere, chaotischere und variablere Bedingungen. Es gibt auch wichtige Fragen zu Privatsphäre, Einwilligung, Kosten und dazu, wie sich Aufzeichnungen darauf auswirken, was Patientinnen und Patienten zu teilen bereit sind. Dennoch weist die Arbeit auf eine Zukunft hin, in der KI-Sekretäre, die sowohl sehen als auch hören, einen Teil der Bürokratie in der Medizin verringern, vollständigere Medikationsinformationen erfassen und Behandelnde dabei unterstützen könnten, sich auf das Wesentliche zu konzentrieren: ihre Patientinnen und Patienten.
Zitation: Menz, B.D., Scarfo, N.L., Modi, N.D. et al. Vision-Enabled AI scribes reduce omissions in clinical conversations: evidence from simulated medication histories. npj Digit. Med. 9, 287 (2026). https://doi.org/10.1038/s41746-026-02494-9
Schlüsselwörter: KI-medizinische Sekretäre, multimodale KI, Medikationsanamnese, klinische Dokumentation, intelligente Brillen