Clear Sky Science · nl

SynthEHR-eviction: het verbeteren van opsporing van huisuitzetting als SDoH met door LLMs aangevulde synthetische EPD-gegevens

2026-02-27 · Terug naar het overzicht

Waarom woonproblemen in medische dossiers thuishoren

Gedwongen uit huis gezet worden kan de gezondheid verwoesten, maar de meeste zorgsystemen merken het nauwelijks op wanneer het gebeurt. Dit artikel beschrijft een nieuwe manier om kunstmatige intelligentie te leren signalen van huisuitzetting en verwante sociale problemen in doktersnotities te herkennen. Door een kleine hoeveelheid deskundig werk om te zetten in een grote, realistische trainingsset, kan de aanpak zorgsystemen helpen mensen met risico’s eerder op te sporen en hen te verbinden met huisvestings- en sociale ondersteuning.

Wanneer een verloren woning de gezondheid schaadt

Een huisuitzetting doet meer dan een adres veranderen. Het hangt samen met dakloosheid, werkloosheid, depressie en zelfs hogere sterftecijfers, met bijzonder grote gevolgen voor gemarginaliseerde groepen en tijdens crises zoals de COVID-19-pandemie. Toch verschijnt informatie over woningverlies of dreigende uitzetting in de huidige elektronische patiëntendossiers meestal alleen in vrije-tekstnotities, niet in standaardvinkjes of -codes. Dat maakt het moeilijk voor ziekenhuizen, onderzoekers en beleidsmakers om te zien waar uitzetting plaatsvindt, wie het meest getroffen is en wanneer er moet worden ingegrepen.

Het bouwen van realistische "synthetische" patiëntverhalen

Aangezien echte medische notities die duidelijk uitzetting noemen zeldzaam en gevoelig zijn, maakten de auteurs een pijplijn genaamd SynthEHR-Eviction om realistische maar volledig synthetische voorbeelden te genereren. Ze begonnen met sociale-geschiedenissecties van echte ontslagbrieven uit het ziekenhuis en gebruikten grote taalmodellen — AI-systemen getraind op enorme tekstverzamelingen — om ze zo te herschrijven dat elke notitie een specifieke woonsituatie of sociale situatie weerspiegelde. Deskundigen definieerden zorgvuldig 14 categorieën, inclusief gedetailleerde uitzettingsfasen zoals “in afwachting”, “wederzijds akkoord om een huurcontract te beëindigen” en “verleden versus huidige uitzetting”, evenals verwante problemen zoals dakloosheid, voedselonzekerheid en betalingsproblemen. Via een iteratief human-in-the-loop-proces beoordeelden clinici voorbeelduitvoer, markeerden fouten en gaven gestructureerde terugkoppeling terug in het promptproces totdat elke AI-"augmentor" zeer nauwkeurige notities met minimale dubbelzinnigheid produceerde. Het resultaat was een grote openbare dataset met 8.000 synthetische trainingsnotities plus meer dan 600 zorgvuldig gelabelde testnotities die synthetische gevallen mengden met gede-identificeerde echte voorbeelden uit grote onderzoeksdatabanken.

Computers leren tussen de regels lezen

Op basis van deze synthetische verhalen bouwde het team een geautomatiseerd aantekeningssysteem dat niet alleen een categorie toekent maar ook een stapsgewijze verklaring van zijn redenering produceert. Met een raamwerk genaamd DSPy optimaliseerden ze prompts zodat de AI eerst beslist of een notitie überhaupt over uitzetting gaat, en het dossier daarna óf naar een gedetailleerde uitzettingsclassificator óf naar een classificator voor andere sociale risico’s zoals vervoer- of voedselonzekerheid stuurt. Dit ontwerp weerspiegelt hoe een menselijke lezer eerst zou vragen "Wordt uitzetting genoemd?" en het geval pas daarna in meer specifieke bakken plaatst. Om handmatig werk te verminderen vergeleken de onderzoekers volledig menselijke herschrijvingen en labels van 8.000 notities — meer dan 260 uur werk — met hun AI-geassisteerde workflow, die vergelijkbare datakwaliteit behaalde met minder dan zes uur deskundige tijd, een reductie van 80 procent.

Hoe goed de modellen presteren

Met SynthEHR-Eviction verfijnden de auteurs vervolgens een reeks open-source taalmodellen en vergeleken die met commerciële systemen en oudere biomedische modellen. Voor de eenvoudige taak om te bepalen of uitzetting überhaupt werd genoemd, presteerden veel modellen goed, maar fijn-afgestelde grote taalmodellen en een getune variant van GPT-4 bereikten de hoogste scores. De moeilijkere test was het onderscheiden van zeven genuanceerde uitzettingsstatussen en een aparte set niet-uitzettings sociale risico’s over drie datasets: synthetische notities, echte ziekenhuisnotities en lange academische casusrapporten. Hier haalden fijn-afgestelde open modellen zoals Qwen2.5 en LLaMA-3 gelijke of iets betere prestaties dan een geoptimaliseerde GPT-4, met macro-F1-scores — een algemene balans tussen precisie en recall — rond 0,89 voor uitzetting en boven 0,90 voor andere sociale risico’s. Kleinere modellen met slechts drie miljard parameters presteerden ook sterk na fijn-afstemming, wat suggereert dat capabele maar betaalbare systemen kunnen worden ingezet in omgevingen met beperkte rekenkracht.

Waarom redeneertraces en echte data nog steeds belangrijk zijn

De studie toont aan dat verklaringen sommige modellen meer helpen dan andere. Wanneer trainingsdata korte, expliciete redeneringen bevatte over waarom een notitie een bepaalde uitzettingsstatus aanduidde, verbeterden kleinere modellen merkbaar, terwijl de grootste modellen weinig veranderden, wat suggereert dat zij veel van deze logica al gecodeerd hadden. Deze redeneertraces maken modelbeslissingen ook makkelijker voor experts om te beoordelen, hoewel de auteurs waarschuwen dat verklaringen niet altijd perfect trouw zijn aan hoe het model daadwerkelijk beslist. Een andere belangrijke bevinding is dat modellen die uitsluitend op synthetische notities zijn getraind struikelen bij rommelige echte-wereldschrijfsels. Het simpelweg mengen van een bescheiden aandeel echte ziekenhuis- of casusrapportnotities verbeterde de prestaties in die domeinen sterk, wat benadrukt dat synthetische data krachtig maar niet voldoende op zichzelf is.

Van verborgen risico naar zichtbare hulp

Alles bij elkaar laat het artikel zien dat zorgvuldig geconstrueerde synthetische data, gecombineerd met gerichte deskundige sturing, verspreide vermeldingen van uitzetting en andere ontberingen kunnen omzetten in gestructureerde signalen die computers op schaal kunnen detecteren. In eenvoudige bewoordingen leert het systeem tussen de regels van doktersnotities te lezen en te signaleren wanneer een patiënt te maken heeft (gehad) met woningverlies of aanverwante sociale problemen. Geïntegreerd in elektronische patiëntendossiers zouden dergelijke hulpmiddelen clinici en maatschappelijk werkers kunnen helpen mensen met risico’s eerder te herkennen en hen in contact te brengen met huisvestingshulp, financieel advies of vervoersondersteuning. Door de onzichtbare sociale kant van ziekte zichtbaarder te maken, biedt SynthEHR-Eviction een weg naar gezondheidszorg die de volledige omstandigheden van het leven van patiënten ziet en erop reageert.

Bronvermelding: Yao, Z., Zhao, Y., Mitra, A. et al. SynthEHR-eviction: enhancing eviction SDoH detection with LLM-augmented synthetic EHR data. npj Digit. Med. 9, 292 (2026). https://doi.org/10.1038/s41746-026-02473-0

Trefwoorden: huisuitzetting, sociale determinanten van gezondheid, elektronische patiëntendossiers, synthetische gegevens, klinische natuurlijke taalverwerking