Clear Sky Science · sv
SynthEHR-eviction: förbättrad upptäckt av vräkningar som sociala hälsobestämningsfaktorer med LLM-augmenterade syntetiska journaldata
Varför bostadsproblem hör hemma i journaler
Att tvingas lämna sitt hem kan få förödande effekter på hälsan, men de flesta vårdsystem märker knappt när det händer. Denna artikel beskriver en ny metod för att lära artificiell intelligens att upptäcka tecken på vräkning och relaterade sociala svårigheter i läkares anteckningar. Genom att förvandla en liten mängd expertarbete till en stor, realistisk träningsmängd kan tillvägagångssättet hjälpa vårdgivare att tidigare identifiera personer i riskzonen och koppla dem till bostads- och socialt stöd.
När förlorat boende skadar hälsan
Vräkning handlar om mer än att byta adress. Den är kopplad till hemlöshet, arbetslöshet, depression och till och med högre dödlighet, med särskilt stora effekter på marginaliserade grupper och under kriser som covid‑19‑pandemin. I dagens elektroniska patientjournaler finns information om bostadsförlust eller hot om vräkning oftast bara i fritextanteckningar, inte i standardiserade kryssrutor eller koder. Det gör det svårt för sjukhus, forskare och beslutsfattare att se var vräkningar sker, vem som drabbas mest och när insatser behövs.
Bygga realistiska ”syntetiska” patientberättelser
Eftersom verkliga läkaranteckningar som tydligt nämner vräkning är sällsynta och känsliga skapade författarna en pipeline kallad SynthEHR‑Eviction för att generera realistiska men helt syntetiska exempel. De utgick från socialhistorikavsnitt i verkliga utskrivningsanteckningar och använde stora språkmodeller—AI‑system tränade på stora textmängder—för att skriva om dem så att varje anteckning speglade en specifik bostads‑ eller social situation. Experter definierade noggrant 14 kategorier, inklusive detaljerade vräkningsstadier som ”pågående,” ”gemensam överenskommelse om att avsluta hyresavtal,” och ”tidigare kontra aktuell vräkning,” samt relaterade problem som hemlöshet, matosäkerhet och svårigheter att betala räkningar. Genom en iterativ människa‑i‑loopen‑process granskade kliniker exempelutdata, markerade fel och gav strukturerad återkoppling som användes i promptningen tills varje AI‑"augmenter" levererade mycket korrekta anteckningar med minimal tvetydighet. Resultatet blev en stor öppen dataset med 8 000 syntetiska träningsanteckningar plus över 600 noggrant etiketterade testanteckningar som blandar syntetiska fall med avidentifierade verkliga exempel hämtade från stora forskningsdatabaser.

Lära datorer att läsa mellan raderna
På toppen av dessa syntetiska berättelser byggde teamet ett automatiserat annoteringssystem som inte bara tilldelar en kategori utan också producerar en steg‑för‑steg‑förklaring av sitt resonemang. Med hjälp av ett ramverk kallat DSPy optimerade de prompts så att AI först avgör om en anteckning överhuvudtaget handlar om vräkning, och sedan skickar den antingen till en detaljerad vräkningsklassificerare eller till en klassificerare för andra sociala risker som transporter eller matosäkerhet. Denna design speglar hur en mänsklig läsare först kan fråga ”Nämns vräkning?” och först därefter sortera fallet i mer specifika fack. För att minska manuellt arbete jämförde forskarna fullständig manuell omskrivning och märkning av 8 000 anteckningar—över 260 timmars arbete—med sitt AI‑stödda arbetsflöde, som uppnådde jämförbar datakvalitet med under sex timmars experttid, en minskning med 80 procent.
Hur väl modellerna presterar
Försedda med SynthEHR‑Eviction finjusterade författarna en rad öppna språkmodeller och jämförde dem med kommersiella system och äldre biomedicinska modeller. För den enkla uppgiften att avgöra om vräkning alls nämndes presterade många modeller väl, men finjusterade stora språkmodeller och en optimerad GPT‑4‑variant nådde de högsta poängen. Den svårare prövningen var att skilja mellan sju nyanserade vräkningsstatusar och en separat uppsättning icke‑vräkningsrelaterade sociala risker över tre datamängder: syntetiska anteckningar, verkliga sjukhusanteckningar och långa akademiska fallrapporter. Här matchade eller överträffade finjusterade öppna modeller som Qwen2.5 och LLaMA‑3 den optimerade GPT‑4 något, och uppnådde macro‑F1‑poäng—en övergripande balans mellan precision och återkallning—runt 0,89 för vräkning och över 0,90 för andra sociala risker. Mindre modeller med endast tre miljarder parametrar presterade också starkt efter finjustering, vilket tyder på att kapabla men prisvärda system kan driftsättas i miljöer med begränsad beräkningskraft.

Varför resonemangsspår och verkliga data fortfarande spelar roll
Studien visar att förklaringar hjälper vissa modeller mer än andra. När träningsdata inkluderade korta, explicita resonemang om varför en anteckning indikerade en viss vräkningsstatus förbättrades mindre modeller tydligt, medan de största modellerna förändrades lite, vilket antyder att de redan kodade mycket av denna logik. Dessa resonemangsspår gör också modellernas beslut lättare för experter att granska, även om författarna varnar för att förklaringar inte alltid är helt trogna hur modellen faktiskt fattar beslut. En annan viktig slutsats är att modeller som bara tränats på syntetiska anteckningar får problem när de möter rörig verklig text. Att helt enkelt blanda in en måttlig andel verkliga sjukhus‑ eller fallrapportsanteckningar förbättrade prestandan i dessa domäner markant, vilket understryker att syntetiska data är kraftfulla men inte tillräckliga på egen hand.
Från dold risk till synlig hjälp
Sammantaget visar artikeln att omsorgsfullt utformade syntetiska data, kombinerat med riktad expertgranskning, kan förvandla spridda omnämnanden av vräkning och andra svårigheter till strukturerade signaler som datorer kan upptäcka i stor skala. Enkelt uttryckt lär sig systemet att läsa mellan raderna i läkares anteckningar och markera när en patient står inför eller har stått inför bostadsförlust eller relaterade sociala påfrestningar. Om det integreras i elektroniska patientjournaler kan sådana verktyg hjälpa kliniker och socialarbetare att tidigare uppmärksamma personer i riskzonen och koppla dem till bostadsstöd, ekonomisk rådgivning eller transporthjälp. Genom att göra sjukdomens osynliga sociala sida mer synlig erbjuder SynthEHR‑Eviction en väg mot vård som ser och svarar på patienternas hela livsomständigheter.
Citering: Yao, Z., Zhao, Y., Mitra, A. et al. SynthEHR-eviction: enhancing eviction SDoH detection with LLM-augmented synthetic EHR data. npj Digit. Med. 9, 292 (2026). https://doi.org/10.1038/s41746-026-02473-0
Nyckelord: vräkning, sociala bestämningsfaktorer för hälsa, elektroniska patientjournaler, syntetiska data, klinisk naturlig språkbehandling