Clear Sky Science · nl

Evaluatie van grote taalmodellen voor diagnostisch redeneren op basis van ongestructureerde klinische verslagen bij epilepsie

2026-05-22 · Terug naar het overzicht

Waarom dit belangrijk is voor patiënten en artsen

Wanneer iemand een aanval heeft, kunnen de uiterlijke kenmerken en gewaarwordingen cruciale aanwijzingen geven over wat er in de hersenen gebeurt. Artsen gebruiken deze beschrijvingen om te bepalen waar in de hersenen aanvallen beginnen en welke behandelingen, waaronder chirurgie, mogelijk helpen. Deze studie onderzoekt of grote taalmodellen, hetzelfde type kunstmatige intelligentie achter chatbots, betrouwbare interpretaties kunnen geven van realistische aanvalsbeschrijvingen en dit soort diagnostisch redeneren kunnen ondersteunen.

Figure 1. AI-tools interpreteren aanvalsbeschrijvingen om te suggereren waar aanvallen in de hersenen beginnen.

Van aanvalverhalen naar hersenaanwijzingen

De onderzoekers concentreren zich op epilepsie, een aandoening waarbij korte uitbarstingen van abnormale hersenactiviteit aanvallen veroorzaken. In de dagelijkse zorg luisteren clinici aandachtig naar patiënten en getuigen en noteren ze kenmerken zoals kauwbewegingen, vreemde sensaties of krachtig schudden van ledematen. Deze details wijzen vaak op specifieke hersengebieden, zoals de temporale of frontale kwab. Het team bouwde voort op een grote openbare dataset waarin meer dan 1200 aanvalsbeschrijvingen al gekoppeld waren aan zeven brede hersenregio’s op basis van operatie-uitkomsten waarbij patiënten aanvalsvrij werden, een sterk teken dat de werkelijke bron van de aanvallen was verwijderd.

Verschillende AI-modellen aan de tand voelen

Acht verschillende taalmodellen werden beoordeeld, waaronder algemeen gebruikte systemen en twee modellen die op medische teksten waren afgestemd. Elk model kreeg een aanvalsbeschrijving en moest aangeven hoe waarschijnlijk het was dat de aanval in elk van de zeven hersenregio’s was begonnen. De onderzoekers keken niet alleen hoe vaak de topkeuze juist was, maar ook hoe zeker de modellen leken, hoe goed die zekerheid overeenkwam met de werkelijkheid en hoe redelijk hun geschreven verklaringen waren. Ze vergeleken de resultaten met een eenvoudige basislijn die altijd de meest voorkomende hersenregio koos en met twee menselijke epilepsiespecialisten die een subset van de gevallen beoordeelden.

Figure 2. Verschillende promptingstijlen sturen AI van rommelige aanvalverhalen naar een gemarkeerde hersenregio met aanwijzingen over vertrouwen.

Hoe de formulering van prompts het AI-gedrag vormt

De manier waarop de taak aan de modellen werd geformuleerd had een grote invloed. Met alleen basisinstructies deden de meeste systemen slechts iets beter dan toevallig raden. De prestaties verbeterden wanneer de modellen enkele voorbeeldcases kregen, werden gevraagd stap voor stap te denken of voorbeeldredeneringen van experts kregen om te imiteren. De sterkste winst kwam van prompts die gedetailleerd redeneren stimuleerden en van het combineren van meerdere onafhankelijke antwoorden om tot een stabielere beslissing te komen. Onder deze rijkere instructies benaderden de beste systemen de nauwkeurigheid van menselijke clinici voor deze specifieke taak, terwijl ze ook consistenter werden en beter gekalibreerd in hun vertrouwen.

Sterke punten, blinde vlekken en de menselijke controle

Een nadere blik onthulde belangrijke kanttekeningen. Klinische experts beoordeelden de redenering van de twee beste modellen. Een daarvan, GPT-4, toonde vaker goed begrip van symptomen, accuraat gebruik van epilepsiekennis en samenhangende logica. Het citeerde ook geneeskundige artikelen vaker correct. Een andere sterke presteerder, Mixtral-8×7B, kwam soms tot het juiste antwoord om de verkeerde redenen, door symptoomdetails verkeerd te lezen of ondersteunende feiten en referenties te verzinnen. De studie liet ook zien dat de prestaties afhingen van hoe lang de aanvalsbeschrijving was, welke klinische rol het model moest aannemen en welke taal werd gebruikt. Zeer korte of zeer gedetailleerde beschrijvingen deden het het beste, het voordoen als specialist verbeterde de resultaten en prompts in andere talen konden de nauwkeurigheid verminderen.

Wat dit betekent voor toekomstige zorg

De auteurs concluderen dat grote taalmodellen, in een gecontroleerde setting, ongestructureerde aanvalverhalen kunnen omzetten in bruikbare schattingen van waar aanvallen in de hersenen beginnen. Met zorgvuldig ontworpen prompts kan hun prestatie dicht in de buurt komen van die van ervaren clinici, althans voor de beperkte taak van het koppelen van aanvalssignalen aan brede hersenregio’s. Tegelijkertijd kunnen de modellen overtuigend klinken terwijl ze berusten op gebrekkige redenering of verzonnen bronnen. Deze mix van belofte en risico betekent dat dergelijke systemen mogelijk ooit kunnen helpen bij triage of vroege diagnostische overwegingen, maar ze moeten grondig worden gevalideerd, nauwkeurig worden begeleid en naast, niet ter vervanging van, menselijke deskundigheid worden gebruikt.

Bronvermelding: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z

Trefwoorden: epilepsie, aanvalsemiologie, grote taalmodellen, diagnostisch redeneren, klinische AI-evaluatie