Clear Sky Science · de
Integration von Fairness-Bewusstsein in klinische Sprachverarbeitungsmodelle
Warum das für die reale Gesundheitsversorgung wichtig ist
Die moderne Medizin stützt sich zunehmend auf künstliche Intelligenz, die aus elektronischen Gesundheitsakten gelernt wurde. Dennoch fehlt eine grundlegende Angabe zu Patientinnen und Patienten – ihre Rasse und ethnische Zugehörigkeit – oft ganz oder wird inkonsistent erfasst. Diese Lücke erschwert es, Gesundheitsungleichheiten aufzudecken und anzugehen. Dieser Artikel untersucht, ob Computer verlässlich Informationen zur Rasse aus Arzttexten rekonstruieren können, ohne dabei verschiedene Gruppen unfair zu behandeln, und was das über Verzerrungen in medizinischen Aufzeichnungen und KI‑Werkzeugen aussagt.

Verborgene Lücken in medizinischen Aufzeichnungen
Viele Krankenhäuser und Praxen lassen die Felder für Rasse und ethnische Zugehörigkeit leer oder verwenden veraltete Kategorien. Diese fehlenden Einträge sind nicht nur formale Fehler; sie können Statistiken darüber verzerren, wer krank wird, wer welche Behandlung erhält und wer von neuen Therapien profitiert. Gleichzeitig erwähnen die Freitextteile der Akten – Sozialanamnese und Risikofaktor‑Notizen – häufig beiläufig Angaben zum Hintergrund der Patientinnen und Patienten. Die Autorinnen und Autoren fragten, ob sich diese verstreuten Hinweise im unstrukturierten Text in eine strukturierte, konsistente Erfassung der Rasse verwandeln ließen, um ein klareres Bild von Ungleichheiten im Gesundheitswesen zu zeichnen.
Computern beibringen, Arzttexte zu lesen
Das Team arbeitete mit einer großen kanadischen Primärversorgungsdatenbank mit Aufzeichnungen von etwa 400.000 Patientinnen und Patienten aus über 400 Praxen. Daraus entnahmen sie eine repräsentative Stichprobe von knapp 4.000 erwachsenen Patientinnen und Patienten und kennzeichneten mühsam Sätze, die eindeutig auf Rasse oder Ethnie Bezug nahmen, mithilfe von neun Kategorien wie Black, East Asian, Latin American und Indigenous sowie einer Kategorie „absent“, wenn keine Erwähnung vorlag. Da die meisten Notizen nie Rasse erwähnen, nutzten sie eine „Active‑Learning“-Strategie: Ein anfängliches KI‑Modell markierte die Notizen, bei denen es am unsichersten war, damit menschliche Annotatorinnen und Annotatoren sich auf die Fälle konzentrieren konnten, in denen wahrscheinlich Rasseinformationen zu finden waren.

Faire Sprachmodelle entwickeln
Die Forschenden verglichen mehrere gängige transformer‑basierte Sprachmodelle – wie BERT und dessen klinische Varianten – mit einem eigens entwickelten hierarchischen konvolutionalen neuronalen Netzwerk. Im Gegensatz zu Standardmodellen, die eine Notiz als eine lange Wortfolge behandeln, spiegelt das hierarchische Modell die Art wider, wie Klinikerinnen und Kliniker schreiben: Es verarbeitet Wörter innerhalb von Sätzen, dann Sätze innerhalb einer Notiz und schließlich die Notizen einer Patientin bzw. eines Patienten über die Zeit. Das Team experimentierte außerdem mit „Fairness‑bewusstem“ Training, indem es zusätzlich Begriffe in die Verlustfunktion aufnahm, die große Unterschiede in Fehlerquoten zwischen rassischen Gruppen bestrafen, und indem es anpasste, wie sehr das Modell Fehler bei unterrepräsentierten Gruppen gewichtet.
Was funktionierte, was nicht
Das hierarchische Modell übertraf alle Transformer‑Modelle insgesamt, erreichte sehr hohe Genauigkeit und ausgeglichenere Leistungen über die Rassenkategorien hinweg – schon bevor Fairness‑Anpassungen vorgenommen wurden. Im Gegensatz dazu erzielten mehrere Transformer gute Ergebnisse für weiße Patientinnen und Patienten, verfehlten aber viele Fälle in kleineren Gruppen und sagten manchmal nur die Mehrheitskategorie voraus. Das Hinzufügen von Fairness‑Beschränkungen half einigen Modellen deutlich, insbesondere BERT, und machte deren Vorhersagen sowohl genauer als auch gleichmäßiger über die Gruppen verteilt. Dieselben Beschränkungen schadeten jedoch anderen Modellen, darunter dem hierarchischen, und in einem klinischen Transformer führte es dazu, dass das System wieder in Richtung Mehrheitsvorhersagen kollabierte. Die Studie fand außerdem anhaltende Unterschiede an den Schnittpunkten von Rasse, Geschlecht und Alter, wobei indigene, Menschen mit gemischter Herkunft sowie einige asiatische und lateinamerikanische Untergruppen am schwierigsten zu klassifizieren blieben.
Was das über Verzerrung verrät
Weil das bestperformende Modell Rasseinformationen zuverlässig erkennen konnte, wenn sie vorhanden waren, argumentieren die Autorinnen und Autoren, dass das Hauptproblem nicht ein fehlendes Signal in den Notizen ist, sondern die Wechselwirkung zwischen Modellen, Datensätzen und lang bestehenden strukturellen Ungleichheiten. Verzerrung schlich sich durch die Unterrepräsentation bestimmter Gruppen ein, durch Muster darin, wie Behandelnde unterschiedliche Patientinnen und Patienten beschreiben, und sogar durch den Active‑Learning‑Prozess, der auswählte, welche Notizen annotiert wurden. Fairness‑bewusstes Training reduzierte einige Disparitäten, konnte diese upstream liegenden Probleme jedoch nicht vollständig beseitigen, und seine Wirkung hing stark vom Modellaufbau ab.
Kernaussage für Patientinnen, Patienten und Behandelnde
Die Arbeit zeigt, dass es technisch möglich ist, Sprachmodelle zu bauen, die Rasseinformationen aus klinischem Text mit hoher Genauigkeit und größerer Fairness rekonstruieren, insbesondere wenn Architekturen die geschichtete Struktur medizinischer Notizen respektieren. Sie macht aber auch deutlich, dass Algorithmen allein die Ungleichheiten, die in Dokumentationspraktiken und im Gesundheitssystem selbst wurzeln, nicht beheben können. Damit KI gerechtere Versorgung unterstützen kann, muss Fairness in jede Phase eingebaut werden – von der Datenerhebung und Stichprobenziehung bis hin zu Training, Prüfung und Einsatz der Modelle – während Gesundheitseinrichtungen zugleich ihre Aufzeichnung und Nutzung sozialer und demografischer Informationen verbessern.
Zitation: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9
Schlüsselwörter: klinische natürliche Sprachverarbeitung, algorithmische Fairness, elektronische Gesundheitsakten, Gesundheitsgerechtigkeit, Daten zu Rasse und Ethnie