Clear Sky Science · sv

Fastställande av rörlighetsfunktion i elektroniska journaler med hjälp av stora språkmodeller

· Tillbaka till index

Varför gångförmåga är en stark hälsosignal

När människor lever längre uppmärksammar läkare inte bara hur länge vi lever utan också hur väl vi kan röra oss, gå och ta hand om oss själva. Svårigheter att ta sig upp från en stol, gå i trappor eller förflytta sig i närområdet visar sig ofta långt innan en medicinsk kris inträffar. Men de mest detaljerade beskrivningarna av en persons dagliga förmågor finns vanligtvis inskrivna i fria textfält i läkar‑ och terapianmärkningar i elektroniska journaler, där de är svåra för datorer att hitta. Denna studie undersöker om moderna stora språkmodeller — samma typ av AI som ligger bakom många chattbotar — kan läsa dessa anteckningar på ett tillförlitligt sätt och omvandla rörelsebeskrivningar till strukturerad, sökbar information.

Figure 1
Figure 1.

Att förvandla röriga anteckningar till användbar rörlighetsdata

Forskningen fokuserade på ”rörlighetsfunktion”, en bred term för hur väl en person kan ändra kroppsläge, gå, bära och hantera föremål, använda transport och förflytta sig i vardagen. De använde 600 verkliga kliniska anteckningar från tre vårdinrättningar i Minnesota och Wisconsin, mestadels från fysioterapi‑ och arbetsterapibesök, samt en uppsättning mer allmänna klinikanteckningar. Expertannoterare gick igenom varje anteckning, avsnitt för avsnitt, och märkte varje passage som beskrev någon av fem rörlighetskategorier, och angav om patienten var tydligt begränsad (”påverkad”) eller fungerade normalt (”opåverkad”). Dessa expertsmarkeringar utgjorde standarden för att utvärdera AI‑systemet.

Hur AI‑modellen tränades att läsa som en kliniker

Teamet använde Llama 3, en öppen källkod stor språkmodell, och körde den på säkra lokala servrar så att patientdata aldrig lämnade vårdsystemet. Istället för att träna om modellen från grunden utformade de noggrant prompts — uppsättningar skriftliga instruktioner och definitioner — för att lära modellen vad den skulle leta efter. De testade ”zero‑shot” prompts, som endast ger instruktioner, och ”few‑shot” prompts, som också innehåller ett par exempelanteckningar. De analyserade sedan var modellen gjorde fel och utarbetade en ”felinformerad” prompt som specificerade vad som skulle inkluderas, vad som skulle ignoreras (såsom framtida behandlingsplaner) och hur svåra fall som fall, yrsel eller rullstolsanvändning skulle hanteras. AI:n ombads för varje anteckningsavsnitt och för varje rörlighetskategori avgöra om rörlighet nämndes alls och i så fall om patienten var påverkad.

Stark prestation förbättras på patientnivå

När systemet jämfördes med experternas markeringar presterade det väl. På nivån för hela patienter — genom att kombinera information över alla deras anteckningar — uppnådde AI:n ett F1‑värde (en vanlig måttstock för noggrannhet) på omkring 0,88 för att enbart hitta rörlighetsinformation och 0,90 för att bedöma om personen var påverkad. Det innebär att dess bedömningar stämde väl överens med mänskliga granskare. Prestationen var något lägre när man granskade enskilda anteckningsavsnitt, där uttryck kan vara sparsamma eller otydliga, men noggrannheten förbättrades när informationen sammanfördes över hela anteckningar och därefter över alla anteckningar för en patient. I en andra analys räknade forskarna också ”kliniskt rimliga slutledningar” som korrekta — till exempel att anta att svår knäsmärta vid gång sannolikt begränsar gångförmågan, även om det inte uttryckligen stod skrivet. Under denna mer generösa bedömning steg patientnivåns F1‑värden över 0,96 för extraktion och 0,95 för klassificering av påverkan.

Figure 2
Figure 2.

Vad AI:n missade — och varför det ändå spelar roll

De flesta fel berodde på att modellen gjorde antaganden i mellanrummen. Den drog ofta slutsatsen att det fanns rörlighetsproblem baserat på smärta, yrsel eller framtida terapiplaner, även när anteckningen aldrig tydligt angav att patienten var begränsad. Andra fel speglade gråzoner i definitionerna, till exempel om upprepade fall ska betraktas som ett gångproblem eller ett balansproblem vid ändring av kroppsläge. Klassen ”rörlighet, ospecificerad”, avsedd att fånga vardagsaktiviteter och motion, var särskilt svårdefinierad. Trots dessa problem var misstagen vanligtvis rimliga ur ett kliniskt perspektiv snarare än slumpmässiga eller bisarra. Genom att köra modellen deterministiskt (utan inbyggd slump) på låsta lokala servrar säkerställde teamet också att resultaten blev reproducerbara och att patientsekretessen bevarades.

Hur detta kan förändra vården för äldre

För en lekman är slutsatsen att ett AI‑system nu kan läsa rutinmässiga läkar‑ och terapianmärkningar tillräckligt bra för att sammanfatta hur väl patienter rör sig och var de har svårigheter. Det innebär att vårdsystem kan följa förändringar i gång, balans och dagliga aktiviteter över tid utan att lägga till nya frågeformulär eller tester, flagga personer med hög risk för fall eller sjukhusvistelser och identifiera dem som kan ha nytta av fysioterapi eller hembesiktningar för säkerhet. Genom att omvandla miljontals fria textanteckningar till strukturerad rörlighetsdata hjälper detta till att ge läkare en bättre helhetsbild av hur åldrande och sjukdom påverkar vardagen — och för vården ett steg närmare verkligt personanpassad, funktionsfokuserad medicin.

Citering: Liu, X., Garg, M., Jia, H. et al. Mobility functional status ascertainment in electronic health records using large language models. Sci Rep 16, 6045 (2026). https://doi.org/10.1038/s41598-026-37025-9

Nyckelord: rörlighet, elektroniska journaler, stora språkmodeller, funktionstillstånd, klinisk AI