Clear Sky Science · nl

Systematisch benchmarken toont aan dat grote taalmodellen nog niet de diagnostische nauwkeurigheid van traditionele beslissingsondersteuningstools voor zeldzame ziekten hebben bereikt

2026-02-24 · Terug naar het overzicht

Waarom dit belangrijk is voor patiënten en artsen

Wanneer iemand een zeldzame ziekte heeft, kan het jaren duren voordat de juiste diagnose wordt gesteld: onzekerheid, herhaalde tests en bezoeken aan veel specialisten zijn geen uitzondering. Tegelijkertijd worden krachtige nieuwe kunstmatige-intelligentiesystemen, zogenaamde grote taalmodellen, geprezen als potentiële gamechangers voor de geneeskunde. Deze studie stelt een eenvoudige maar cruciale vraag: zijn deze nieuwe AI-chatbots daadwerkelijk beter in het herkennen van zeldzame genetische ziekten dan de gespecialiseerde hulpmiddelen die artsen al gebruiken, of hebben ze nog een weg te gaan?

Zeldzame ziekten en de lange weg naar antwoorden

Hoewel elke zeldzame ziekte relatief weinig mensen treft, bestaan er meer dan 10.000 van dergelijke aandoeningen en samen raken ze tot één op de twaalf personen. Veel van deze patiënten doorlopen een "diagnostische odyssee" van vijf tot zeven jaar voordat iemand kan benoemen wat er aan de hand is. Bij genetische aandoeningen is een belangrijke stap het matchen van iemands combinatie van symptomen, laboratoriumresultaten en beeldvormingsbevindingen met de bekende patronen van specifieke ziekten. Bestaande computerprogramma's helpen daarbij al door gestandaardiseerde vocabularia van medische kenmerken te gebruiken om door duizenden mogelijke aandoeningen te zoeken.

Chatbots en traditionele hulpmiddelen op de proef stellen

De onderzoekers stelden een grote verzameling samen van meer dan vijfduizend echte maar geanonimiseerde gevallen van patiënten met bevestigde zeldzame genetische of chromosomale aandoeningen. Elk geval was zorgvuldig omgezet in een gestructureerd formaat dat de leeftijd, het geslacht, de symptomen en testbevindingen van de persoon vastlegt met behulp van een gedeeld medisch woordenboek. Vanuit deze gestructureerde gegevens genereerde het team automatisch korte casusverhalen die aan zeven verschillende taalmodellen konden worden voorgelegd, waaronder algemene systemen en modellen die speciaal op medische teksten waren getraind. Parallel daaraan voerden ze dezelfde gestructureerde gegevens in Exomiser in, een veelgebruikt beslissingsondersteunend programma voor zeldzame ziekten, maar zonder enige genetische sequentie-informatie mee te geven zodat de vergelijking eerlijk zou zijn.

Beoordelen wie de juiste ziekte vond

Het vergelijken van de antwoorden van chatbots en traditionelere software is lastiger dan het lijkt, omdat taalmodellen in vrijlopende tekst antwoorden geven die verschillende ziektebenamingen of detailniveaus kunnen gebruiken. Om niet op menselijke beoordeling te hoeven vertrouwen of een antwoord "voldoende dicht bij" was, bracht het team elke voorgestelde diagnose in kaart binnen een verenigd ziektecatalogus. Een suggestie van een model werd als correct gerekend als deze overeenkwam met de exacte ziekte, een equivalente naam, of een iets algemenere versie die duidelijk de werkelijke aandoening omvatte. Voor elk geval maten ze vervolgens op welke plaats het correcte antwoord in de door het model gerangschikte lijst stond — eerste plaats, in de top drie of ergens in de top tien.

Wat de head-to-head vergelijking liet zien

Over alle 5.213 gevallen presteerde Exomiser duidelijk beter dan elk getest taalmodel. Gebruikmakend van alleen symptoominformatie plaatste Exomiser de juiste diagnose ongeveer in één op de drie gevallen op de eerste plek en binnen de top tien in ruim de helft van de gevallen. Het beste taalmodel, een systeem dat op redeneren was gericht, bereikte de eerste plaats in net geen kwart van de gevallen en de top tien in iets meer dan een derde. Andere medisch-gerichte modellen deden het merkbaar slechter, en een zeer groot medisch model suggereerde bijna nooit de juiste ziekte. Deze patronen bleven behouden toen de onderzoekers afzonderlijk naar hart-, hersen- of immuungerelateerde aandoeningen keken, en toen ze de gevallen splitsten op hoe gedetailleerd de symptoombeschrijvingen waren.

Wat dit betekent voor de toekomst van AI in diagnose

Deze studie toont aan dat, ondanks hun indrukwekkende taalvaardigheden, de huidige grote taalmodellen nog niet zo betrouwbaar zijn als gespecialiseerde hulpmiddelen voor het diagnosticeren van zeldzame genetische ziekten op basis van symptomatische beschrijvingen alleen. Ze kunnen nog steeds nuttig zijn als assistenten — bijvoorbeeld door artsen te helpen aan mogelijkheden te denken of door aandoeningen in eenvoudige taal uit te leggen — maar ze zouden gevestigde software niet moeten vervangen wanneer levens en lang op zich laten wachten antwoorden op het spel staan. De auteurs stellen dat de meest veelbelovende weg voorwaarts is om taalmodellen in zorgvuldig ontworpen diagnostische pipelines te integreren, waarbij ze samenwerken met, in plaats van in de plaats van, vertrouwde bio-informaticahulpmiddelen.

Bronvermelding: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5

Trefwoorden: zeldzame ziekten, medische diagnose, grote taalmodellen, klinische beslissingsondersteuning, genetische aandoeningen