Clear Sky Science · nl

Een grootschalige benchmark voor het evalueren van grote taalmodellen bij medische vraagbeantwoording in het Roemeens

· Terug naar het overzicht

Waarom dit belangrijk is voor gezondheid en technologie

Veel mensen wenden zich tegenwoordig tot online hulpmiddelen en chatbots voor gezondheidsinformatie, maar de meeste van deze systemen werken het beste in het Engels en hebben moeite met lokale medische dossiers. Dit artikel pakt die kloof aan voor Roemenië, waar artsen uitgebreide, complexe casussamenvattingen in het Roemeens schrijven en betrouwbare digitale hulp nodig hebben om snel vragen over kankerpatiënten te beantwoorden. De auteurs presenteren MedQARo, een nieuwe bron waarmee onderzoekers grote taalmodellen serieus kunnen testen en verbeteren zodat ze echte klinische aantekeningen in het Roemeens beter begrijpen.

Een nieuwe vraagbank opgebouwd uit echte patiëntgegevens

Het hart van de studie is MedQARo, een zeer grote verzameling van 105.880 vraag–antwoordparen gekoppeld aan 1.242 kankerpatiënten. In plaats van Engelse gegevens te vertalen, begon het team vanaf nul met originele Roemeense casussamenvattingen, grotendeels voor borstkanker en longkanker, plus verschillende andere tumortypes. Zeven oncologie-specialisten en arts-assistenten besteedden bijna 3.000 uur aan het lezen van deze documenten en het schrijven van antwoorden op zorgvuldig ontworpen medische vragen. Sommige vragen zijn ja/nee, andere halen specifieke details naar boven, en sommige vereisen het combineren van aanwijzingen om stadia of behandelingsschema's af te leiden. Alle patiëntgegevens werden volledig geanonimiseerd en goedgekeurd door ethische commissies.

Figure 1
Figuur 1.

AI testen op lokaal medische taalgebruik

Met MedQARo evalueerden de auteurs meerdere families van grote taalmodellen, waaronder twee aangepast aan het Roemeens in het algemeen, één ontworpen voor zeer lange teksten en één getraind op Engels medisch materiaal. Ze vergeleken deze ook met twee krachtige commerciële modellen die via betaalde API's toegankelijk zijn. Elk model moest de vraag en een fragment van de klinische samenvatting lezen en vervolgens het antwoord genereren. De onderzoekers keken niet alleen naar exacte overeenkomsten, maar ook hoe vaak de modellen de kernwoorden vastlegden en hoe goed ze omgingen met flexibele Roemeense formuleringen, met behulp van vier verschillende scoremaatregelen.

Fijn afgestelde modellen verslaan ‘kant-en-klare’ giganten

In het algemeen presteerden modellen die direct "out of the box" werden gebruikt slecht op MedQARo, zelfs wanneer ze sterk waren in het Engels of enige blootstelling aan Roemeens hadden. Simpele basislijnen die altijd het meest voorkomende antwoord gokten, bereikten soms bijna even goede resultaten als deze zero-shot-systemen. Nadat de onderzoekers de modellen echter fijnafstemmden op de nieuwe dataset, steeg de prestatie dramatisch. Het beste systeem, een voor het Roemeens aangepaste model genaamd RoMistral‑7B, behaalde een F1-score van ongeveer 0,67 op bekende kankertypen en ziekenhuizen, en overtrof daarmee duidelijk alle andere open-source en commerciële modellen. Toch gaf zelfs deze koploper meer dan een derde van de vragen onjuist weer, wat aangeeft hoe veeleisend de benchmark is.

Figure 2
Figuur 2.

Robuustheid testen over klinieken en kankersoorten heen

Om te onderzoeken of deze systemen nieuwe situaties aankonden, bouwde het team een zwaardere testset uit een ander medisch centrum en uit kankersoorten die niet tijdens de training werden gezien. In dit cross-domain scenario daalde de prestatie van elk model, vaak scherp, waarbij het beste fijnafgestelde model aanzienlijk minder dan de helft van de keren correct antwoordde. Modellen getraind op Engelstalige biomedische teksten transfereren niet automatisch goed naar Roemeense aantekeningen, en het simpelweg geven van een veel langer fragment van het klinische document hielp ook niet veel. Sterker nog, focussen op het eerste deel van de samenvatting werkte vaak beter dan het voeren van het volledige lange dossier in, wat suggereert dat meer context eerder verwart dan verduidelijkt.

Wat dit betekent voor toekomstige klinische AI

Voor een niet‑specialistische lezer is de kernboodschap dat het bouwen van veilige en nuttige medische AI in talen als het Roemeens meer vereist dan alleen lokale gegevens in een groot Engels‑gericht chatbot te pluggen. Zorgvuldig opgezette, taalspecifieke benchmarks zoals MedQARo tonen zowel het potentieel als de beperkingen van huidige systemen aan. Ze laten zien dat kleine, open‑source modellen, wanneer ze fijnafgestemd zijn op hoogwaardige lokale gegevens, grotere algemene modellen in de cloud kunnen overtreffen. Tegelijkertijd waarschuwen de matige scores, vooral voor nieuwe ziekenhuizen en kankers, dat de huidige tools nog niet klaar zijn om menselijk oordeel te vervangen. In plaats daarvan biedt MedQARo een solide basis voor de volgende generatie klinische assistenten die Roemeense artsen kunnen helpen bij het navigeren door complexe kankerdossiers, met de veiligheid en privacy van patiënten centraal.

Bronvermelding: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0

Trefwoorden: medische vraagbeantwoording, Roemeense taal-AI, klinische kankerdossiers, grote taalmodellen, MedQARo benchmark