Clear Sky Science · nl

Integratie van bewustzijn rond eerlijkheid in klinische taalverwerkingsmodellen

· Terug naar het overzicht

Waarom dit van belang is voor de gezondheidszorg in de praktijk

De moderne geneeskunde leunt steeds meer op kunstmatige intelligentie die is opgebouwd uit elektronische medische dossiers. Toch ontbreekt een basale eigenschap van patiënten—hun ras en etniciteit—vaak of wordt deze inconsistent vastgelegd. Dat gat bemoeilijkt het opsporen en aanpakken van gezondheidsongelijkheden. Dit artikel onderzoekt of computers betrouwbaar rasinformatie uit doktersnotities kunnen halen terwijl ze tegelijkertijd oneerlijke behandeling van verschillende groepen vermijden, en wat dat vertelt over vooringenomenheid in zowel medische dossiers als AI-tools.

Figure 1
Figure 1.

Verborgen hiaten in medische dossiers

Veel ziekenhuizen en klinieken laten velden voor ras en etniciteit leeg of gebruiken verouderde categorieën. Deze ontbrekende invoer zijn niet slechts administratieve fouten; ze kunnen statistieken vertekenen over wie ziek wordt, wie welke zorg krijgt en wie baat heeft bij nieuwe behandelingen. Ondertussen vermelden de vrije-tekstgedeelten van dossiers—sociale geschiedenis en risicofactoren—vaak terloops de achtergrond van een patiënt. De auteurs vroegen zich af of die verspreide aanwijzingen in ongestructureerde tekst omgezet kunnen worden in een gestructureerd, consistent record van ras, dat een duidelijker beeld geeft van ongelijkheden in gezondheid en zorggebruik.

Computers leren doktersnotities lezen

Het team werkte met een grote Canadese eerstelijnsdatabank met dossiers van ongeveer 400.000 patiënten en meer dan 400 klinieken. Daaruit haalden ze een representatieve steekproef van bijna 4.000 volwassen patiënten en labelden zinnen nauwkeurig die duidelijk naar ras of etniciteit verwezen, met negen categorieën zoals Zwart, Oost-Aziatisch, Latijns-Amerikaans en Inheems, plus een “afwezig”-categorie wanneer er geen verwijzing voorkwam. Omdat in de meeste notities ras nooit genoemd wordt, gebruikten ze een “active learning”-strategie waarbij een eerste AI-model de notities markeerde waarin het het meest onzeker was, zodat menselijke annotatoren zich konden concentreren op de gevallen die het meest waarschijnlijk rasinformatie bevatten.

Figure 2
Figure 2.

Opbouwen van eerlijkere taalmodellen

De onderzoekers vergeleken verschillende populaire transformer-gebaseerde taalmodellen—zoals BERT en zijn klinische varianten—met een op maat gemaakt hiërarchisch convolutioneel neuraal netwerk. In tegenstelling tot standaardmodellen die een notitie behandelen als één lange reeks woorden, weerspiegelt het hiërarchische model hoe clinici schrijven: het verwerkt woorden binnen zinnen, vervolgens zinnen binnen een notitie en tenslotte de notities van een patiënt over de tijd. Het team experimenteerde ook met “fairness-aware” training, waarbij termen werden toegevoegd aan de verliesfunctie die grote verschillen in foutpercentages tussen raciale groepen bestraffen en waarmee bepaald werd hoeveel het model ‘zorgt’ om fouten bij ondervertegenwoordigde groepen.

Wat werkte, wat werkte niet

Het hiërarchische model presteerde beter dan alle transformer-modellen in het geheel: het behaalde zeer hoge nauwkeurigheid en een meer gebalanceerde prestatie over raciale categorieën, zelfs vóór eerlijkheidsaanpassingen. Ter vergelijking: meerdere transformers presteerden goed voor witte patiënten maar misten veel gevallen bij kleinere groepen en voorspelden soms alleen de meerderheidscategorie. Het toevoegen van eerlijkheidsbeperkingen hielp sommige modellen aanzienlijk, vooral BERT, waardoor hun voorspellingen zowel accurater als gelijkmatiger over groepen werden verdeeld. Maar diezelfde beperkingen schaadden andere modellen, inclusief het hiërarchische model, en bij één klinische transformer zorgden ze ervoor dat het systeem terugviel naar meerderheidspredicties. De studie vond ook aanhoudende verschillen bij kruisingen van ras, geslacht en leeftijd: Inheemse, mensen met gemengde afkomst en sommige Aziatische en Latijns-Amerikaanse subgroepen bleven het moeilijkst te classificeren.

Wat dit onthult over vooringenomenheid

Aangezien het best presterende model rasinformatie betrouwbaar kon detecteren wanneer die aanwezig was, betogen de auteurs dat het belangrijkste probleem niet het ontbreken van signaal in de notities is, maar hoe modellen en datasets interageren met bestaande structurele ongelijkheden. Bias sloop binnen via ondervertegenwoordiging van bepaalde groepen, via patronen in hoe clinici verschillende patiënten beschrijven, en zelfs via het active-learningproces dat bepaalde notities koos om te labelen. Fairness-aware training verminderde enkele ongelijkheden maar kon deze achterliggende problemen niet volledig oplossen, en het effect hing sterk af van het ontwerp van het model.

Belangrijkste boodschap voor patiënten en clinici

Dit werk laat zien dat het technisch mogelijk is taalmodellen te bouwen die rasinformatie uit klinische tekst met hoge nauwkeurigheid en grotere eerlijkheid terugvinden, vooral wanneer architecturen rekening houden met de gelaagde structuur van medische notities. Het maakt echter ook duidelijk dat algoritmen alleen de ongelijkheden die ontstaan in documentatiepraktijken en het zorgsysteem zelf niet kunnen herstellen. Om AI te laten bijdragen aan rechtvaardigere zorg, moet eerlijkheid ingebouwd worden in elke fase—van hoe data worden verzameld en bemonsterd tot hoe modellen worden getraind, gecontroleerd en gebruikt—terwijl zorginstellingen verbeteren hoe ze sociale en demografische informatie vastleggen en erop handelen.

Bronvermelding: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9

Trefwoorden: klinische natuurlijke taalverwerking, algorithmische eerlijkheid, elektronische medische dossiers, gezondheidsrechtvaardigheid, gegevens over ras en etniciteit