Clear Sky Science · nl

Gebruik van natuurlijke taalverwerking en machine learning om chronische aandoeningen te identificeren in elektronische huisartsdossiers

2026-02-12 · Terug naar het overzicht

Waarom de aantekeningen van uw arts belangrijker zijn dan u denkt

Wanneer u uw huisarts bezoekt, wordt elke hoest, klacht en zorg in uw elektronisch medisch dossier vastgelegd. Veel van deze details staan in vrije‑tekstnotities in plaats van in nette selectievakjes. Deze studie laat zien dat die narratieve aantekeningen, gecombineerd met moderne computermethoden, artsen kunnen helpen chronische ziekten zoals artritis, nierziekte, diabetes, hoge bloeddruk en ademhalingsproblemen nauwkeuriger te herkennen—vooral wanneer deze problemen elders in het dossier niet duidelijk gecodeerd zijn.

Verborgen aanwijzingen in alledaagse spreekuurgegevens

Elektronische medische dossiers in de eerstelijnszorg bevatten twee heel verschillende soorten informatie. Er zijn gestructureerde gegevens, zoals declaratiecodes, medicatielijsten en laboratoriumuitslagen, en er zijn ongestructureerde notities, waarin zorgverleners symptomen, voorgeschiedenis en hun redenering in gewone taal beschrijven. In Canada zijn declaratiecodes vaak onvolledig en worden ze vooral voor betaling gebruikt in plaats van voor nauwkeurige diagnose, waardoor veel gezondheidsproblemen duidelijker naar voren komen in de notities dan in de selectievakjes. De onderzoekers wilden nagaan of het samen benutten van beide informatiebronnen beter kon vaststellen welke van de vijf veelvoorkomende chronische aandoeningen aanwezig waren bij patiënten van 60 jaar en ouder die een enkele familiepraktijk in Alberta bezochten.

Computers leren de taal van artsen lezen

Om de rijke maar rommelige tekst van klinische notities te benutten, gebruikte het team natuurlijke taalverwerking, een reeks hulpmiddelen die computers helpt met menselijke taal om te gaan. Ze schonen de notities door losse symbolen te verwijderen, woorden te standaardiseren, afkortingen uit te schrijven en verwante woorden terug te brengen tot gemeenschappelijke wortels. Ze bouwden ook eenvoudige regels om te herkennen wanneer een notitie aangaf dat een patiënt een aandoening niet had—bijvoorbeeld zinnen als “geen aanwijzingen voor” of “werd uitgesloten”—zodat de computer zulke vermeldingen niet ten onrechte als positieve gevallen zou behandelen. Clinici in het team stelden lijsten samen met betekenisvolle termen en uitdrukkingen voor elke aandoening, waarmee de algoritmen zich konden richten op relevante medische begrippen in plaats van op elk los woord.

Thema’s vinden en leren van patronen

Vervolgens kwantificeerden de onderzoekers de tekst zodat deze kon worden gebruikt in machine learning‑modellen. Ze telden hoe vaak elk woord of woordpaar in de notities van elke patiënt voorkwam, maar ze gaven ook minder gewicht aan zeer algemene woorden en accentueerden woorden die specifiek waren voor een bepaalde aandoening. Met een methode genaamd topic modeling controleerden ze of de meest voorkomende woordgroepen in de notities overeenkwamen met de aandoeningen van belang—bijvoorbeeld termen die met diabetes of hoge bloeddruk verband houden. Deze stap fungeerde als een realiteitscontrole, die bevestigde dat de door de computer geïdentificeerde thema’s overeenstemden met klinische kennis voordat voorspellende modellen werden gebouwd.

Algoritmen laten aangeven wie waarschijnlijk ziek is

Het hart van de studie bestond uit het trainen van drie typen machine learning‑modellen om te bepalen of elke patiënt waarschijnlijk elk van de vijf chronische aandoeningen had. Eén model werkte als een verfijnde risicocalculator, een ander trok een grens tussen gezonde en zieke gevallen, en een derde leek op een eenvoudig, door het brein geïnspireerd netwerk. De onderzoekers trainden deze modellen eerst alleen met de gestructureerde onderdelen van het dossier en trainden ze daarna opnieuw met zowel gestructureerde gegevens als de verwerkte tekstkenmerken uit de notities. Ze corrigeerden ook voor het feit dat sommige ziekten minder vaak voorkwamen in de steekproef door de data zorgvuldig te herbewerken, zodat zeldzame aandoeningen niet door de algoritmen over het hoofd zouden worden gezien.

Duidelijke winst door het volledige verhaal te gebruiken

Wanneer ongestructureerde notities werden toegevoegd, werden de modellen merkbaar beter in het onderscheiden van wie wel en wie geen aandoening had, vooral voor problemen die vaak ondergecodeerd zijn in declaratiegegevens. Voor artritis en ademhalingsziekten verbeterden de maatstaven voor hoe goed de modellen zieke en gezonde patiënten scheidden en hoe betrouwbaar ze echte gevallen aanduidden, aanzienlijk. Bijvoorbeeld, de prestaties voor het detecteren van ademhalingsproblemen en artritis gingen van redelijk naar sterk toen notities werden meegenomen. Verbeteringen voor diabetes en hoge bloeddruk waren kleiner omdat deze aandoeningen al goed werden vastgelegd in gestructureerde velden. Interessant genoeg presteerden de eenvoudigere modellen vaak net zo goed als, of beter dan, het complexere neurale netwerk, wat suggereert dat geavanceerde deep learning niet altijd nodig is voor dit soort klinische toepassingen op praktijkniveau.

Wat dit betekent voor uw toekomstige zorg

Al met al laat de studie zien dat aandacht voor de narratieve onderdelen van medische dossiers—niet alleen codes en labuitslagen—onze mogelijkheid om patiënten met chronische ziekten te vinden aanzienlijk kan verscherpen. Door vrije‑tekstnotities om te zetten in machinelesbare signalen en deze te combineren met bestaande gestructureerde gegevens, kunnen zorgsystemen mogelijk risicopatiënten eerder identificeren, vervolgzorg richten waar die het meest nodig is, en deze aanpak uitbreiden naar andere aandoeningen die vooral in het geschreven verhaal van het bezoek voorkomen in plaats van in de keuzelijsten.

Bronvermelding: Zhang, N., Abbasi, M., Khera, S. et al. Leveraging natural language processing and machine learning to identify chronic conditions from primary care electronic medical records. Sci Rep 16, 8441 (2026). https://doi.org/10.1038/s41598-026-38594-5

Trefwoorden: elektronische medische dossiers, detectie van chronische ziekten, natuurlijke taalverwerking, machine learning in de gezondheidszorg, huisartsgegevens