Clear Sky Science · de
Nutzen von Natural Language Processing und Machine Learning zur Identifikation chronischer Erkrankungen in elektronischen Patientenakten der Primärversorgung
Warum die Notizen Ihres Arztes wichtiger sind, als Sie denken
Wenn Sie Ihren Hausarzt aufsuchen, werden jeder Husten, jede Beschwerde und jedes Anliegen in Ihrer elektronischen Patientenakte festgehalten. Viele dieser Details stehen in freien, erzählerischen Notizen statt in übersichtlichen Auswahlfeldern. Diese Studie zeigt, dass solche narrativen Notizen, kombiniert mit modernen Computerverfahren, Ärzten helfen können, chronische Erkrankungen wie Arthritis, Nierenerkrankungen, Diabetes, Bluthochdruck und Atemwegserkrankungen genauer zu erkennen – besonders wenn diese Probleme anderswo in der Akte nicht eindeutig kodiert sind.
Verborgene Hinweise in alltäglichen Praxisunterlagen
Elektronische Patientenakten in der Primärversorgung enthalten zwei sehr unterschiedliche Informationsarten. Es gibt strukturierte Elemente wie Abrechnungscodes, Medikationslisten und Laborergebnisse, und es gibt unstrukturierte Notizen, in denen Kliniker Symptome, Anamnese und ihr medizinisches Urteil in normaler Sprache beschreiben. In Kanada sind Abrechnungscodes oft unvollständig und dienen eher der Vergütung als einer präzisen Diagnosestellung, sodass viele Gesundheitsprobleme in den Notizen klarer hervorstechen als in den Auswahlfeldern. Die Forschenden untersuchten, ob das gemeinsame Auswerten beider Informationsarten besser geeignet ist, fünf häufige chronische Erkrankungen bei Patienten im Alter von 60 Jahren und älter zu identifizieren, die eine einzelne Familienarztpraxis in Alberta besucht hatten.

Computern das Lesen der Arztsprache beibringen
Um den reichen, aber unordentlichen Text klinischer Notizen nutzbar zu machen, verwendete das Team Natural Language Processing, eine Sammlung von Werkzeugen, die Computern den Umgang mit menschlicher Sprache ermöglicht. Sie bereinigten die Notizen, indem sie störende Zeichen entfernten, Wörter standardisierten, Abkürzungen ausschrieben und verwandte Wörter zu gemeinsamen Wortstämmen reduzierten. Außerdem entwickelten sie einfache Regeln, um zu erkennen, wenn in einer Notiz angegeben war, dass ein Patient eine Erkrankung nicht hat – etwa Formulierungen wie „kein Hinweis auf“ oder „wurde ausgeschlossen“ –, damit der Computer solche Hinweise nicht fälschlich als positive Befunde interpretiert. Kliniker im Team erstellten Listen sinnvoller Begriffe und Phrasen für jede Erkrankung, damit die Algorithmen sich auf relevante medizinische Konzepte statt auf jedes einzelne Wort konzentrieren konnten.
Themen finden und aus Mustern lernen
Als Nächstes quantifizierten die Forschenden den Text, damit er in Machine‑Learning‑Modelle eingespeist werden konnte. Sie zählten, wie oft jedes Wort oder Wortpaar in den Notizen eines Patienten auftauchte, gewichteten sehr häufige Wörter herunter und hoben solche hervor, die für eine bestimmte Erkrankung besonders charakteristisch waren. Mithilfe einer Methode namens Topic Modeling überprüften sie, ob die häufigsten Wortgruppen in den Notizen mit den interessierenden Erkrankungen übereinstimmten – etwa Begriffe, die mit Diabetes oder Bluthochdruck verbunden sind. Dieser Schritt diente als Validierung und bestätigte, dass die vom Computer identifizierten Themen mit klinischem Wissen übereinstimmten, bevor Vorhersagemodelle erstellt wurden.
Algorithmen markieren, wer wahrscheinlich erkrankt ist
Im Kern der Studie stand das Training dreier Typen von Machine‑Learning‑Modellen, die entscheiden sollten, ob jeder Patient wahrscheinlich an einer der fünf chronischen Erkrankungen leidet. Ein Modell funktionierte wie ein verfeinerter Risikorechner, ein anderes zog eine Grenze zwischen gesunden und erkrankten Fällen, und ein drittes ähnelte einem einfachen, vom Gehirn inspirierten Netzwerk. Die Forschenden trainierten diese Modelle zunächst nur mit den strukturierten Teilen der Akte und trainierten sie dann erneut mit sowohl strukturierten Daten als auch den verarbeiteten Texfeatures aus den Notizen. Außerdem berücksichtigten sie, dass einige Erkrankungen in der Stichprobe seltener waren, indem sie die Daten sorgfältig ausglichen, damit seltene Erkrankungen von den Algorithmen nicht übersehen würden.
Deutliche Vorteile durch die ganze Geschichte
Als unstrukturierte Notizen hinzugefügt wurden, verbesserten sich die Modelle spürbar darin, wer wirklich eine Erkrankung hat und wer nicht – besonders bei Problemen, die in Abrechnungsdaten oft unterkodiert sind. Bei Arthritis und Atemwegserkrankungen verbesserten sich Kennzahlen, die messen, wie gut die Modelle zwischen kranken und gesunden Patienten unterscheiden, und wie zuverlässig sie echte Fälle markieren, deutlich. Beispielsweise stieg die Leistungsfähigkeit bei der Erkennung von Atemwegsproblemen und Arthritis von befriedigend auf stark, wenn Notizen einbezogen wurden. Die Verbesserungen bei Diabetes und Bluthochdruck fielen kleiner aus, da diese Erkrankungen bereits gut in strukturierten Feldern erfasst waren. Interessanterweise schnitten die einfacheren Modelle oft genauso gut oder besser ab als das komplexere neuronale Netzwerk, was darauf hindeutet, dass aufwändiges Deep Learning nicht immer nötig ist für Arbeiten auf Praxisebene.

Was das für Ihre künftige Versorgung bedeutet
Insgesamt zeigt die Studie, dass die Beachtung der narrativen Teile medizinischer Akten – nicht nur der Codes und Laborwerte – unsere Fähigkeit, Patienten mit chronischen Erkrankungen zu identifizieren, deutlich schärfen kann. Indem freie Textnotizen in maschinenlesbare Signale verwandelt und mit vorhandenen strukturierten Daten kombiniert werden, könnten Gesundheitssysteme Risikopatienten früher erkennen, Nachsorge gezielter einsetzen und diesen Ansatz auf weitere Erkrankungen ausweiten, die hauptsächlich in der schriftlichen Darstellung des Besuchs und nicht in Dropdown‑Menüs auftauchen.
Zitation: Zhang, N., Abbasi, M., Khera, S. et al. Leveraging natural language processing and machine learning to identify chronic conditions from primary care electronic medical records. Sci Rep 16, 8441 (2026). https://doi.org/10.1038/s41598-026-38594-5
Schlüsselwörter: elektronische Patientenakten, Erkennung chronischer Erkrankungen, Natural Language Processing, Machine Learning im Gesundheitswesen, Primärversorgungsdaten