Clear Sky Science · sv
En storskalig benchmark för att utvärdera stora språkmodeller i medicinsk frågor och svar på rumänska
Varför detta är viktigt för hälsa och teknik
Många vänder sig nu till onlineverktyg och chatbottar för hälsoinformation, men de flesta av dessa system fungerar bäst på engelska och har svårt med lokala medicinska journaler. Denna artikel tar itu med det gapet för Rumänien, där läkare skriver långa, komplexa journalsammanfattningar på rumänska och behöver pålitliga digitala assistenter för att snabbt besvara frågor om cancerpatienter. Författarna presenterar MedQARo, en ny resurs som låter forskare seriöst testa och förbättra stora språkmodeller så att de bättre kan förstå verkliga kliniska anteckningar på rumänska.
En ny frågebank byggd från verkliga patienter
Studien centreras kring MedQARo, en mycket stor samling med 105 880 fråga–svar-par kopplade till 1 242 cancerpatienter. I stället för att översätta engelska data började teamet från grunden med ursprungliga rumänska journaler, främst för bröst- och lungcancer, samt flera andra tumörtyper. Sju onkologer och ST-läkare lade nästan 3 000 timmar på att läsa dessa dokument och skriva svar på noggrant utformade medicinska frågor. Vissa frågor är ja/nej, andra hämtar ut specifika detaljer och några kräver att man kombinerar ledtrådar för att sluta sig till stadier eller behandlingsförlopp. All patientdata anonymiserades fullt ut och godkändes av etikkommittéer.

Testning av AI på inhemskt medicinskt språk
Med hjälp av MedQARo utvärderade författarna flera familjer av stora språkmodeller, inklusive två finjusterade för rumänska i allmänhet, en utformad för att hantera mycket långa texter och en tränad på engelskt medicinskt material. De jämförde dem också med två kraftfulla kommersiella modeller som nåddes via betal-API:er. Varje modell behövde läsa frågan och ett utdrag ur den kliniska sammanfattningen och sedan generera svaret. Forskarna tittade inte bara på exakta matchningar, utan också på hur ofta modellerna fångade nyckelord och hur väl de hanterade flexibel rumänsk formulering, med hjälp av fyra olika scoringsmått.
Finjusterade modeller slår ’out‑of‑the‑box’‑jättar
Överlag presterade modeller som användes direkt ”out of the box” dåligt på MedQARo, även när de var starka på engelska eller hade viss exponering för rumänska. Enkla baslinjer som alltid gissade det vanligaste svaret gjorde ibland nästan lika bra som dessa zero‑shot‑system. När forskarna däremot finjusterade modellerna på den nya datamängden ökade prestandan dramatiskt. Det bästa systemet, en rumänskanpassad modell kallad RoMistral‑7B, nådde ett F1‑värde på cirka 0,67 på välkända cancertyper och sjukhus, klart bättre än alla andra öppna och kommersiella modeller. Ändå svarade även denna ledare fel på mer än en tredjedel av frågorna, vilket visar hur krävande benchmarken är.

Stresstest av generalisering över kliniker och cancerformer
För att se om dessa system kunde hantera nya situationer byggde teamet ett tuffare testset från ett annat medicinskt center och från cancertyper som inte förekom i träningen. I detta tvärdomänscenario sjönk alla modellers prestanda, ofta kraftigt, där den bästa finjusterade modellen korrekt svarade långt under hälften av gångerna. Modeller tränade på engelska biomedicinska texter överförde sig inte automatiskt väl till rumänska journaler, och att helt enkelt ge modellerna en mycket längre del av det kliniska dokumentet hjälpte inte mycket heller. Faktum är att fokus på den första delen av sammanfattningen ofta fungerade bättre än att mata in hela långa journalen, vilket tyder på att mer kontext kan förvirra snarare än klargöra.
Vad detta betyder för framtidens kliniska AI
För en lekmannaläsare är budskapet att bygga säker och användbar medicinsk AI i språk som rumänska kräver mer än att bara koppla lokal data till en stor engelskorienterad chatbot. Noggrant utformade, språk‑specifika benchmarkar som MedQARo visar både potentialen och begränsningarna hos dagens system. De visar att små, öppen‑källkodsmodeller, när de finjusterats på högkvalitativa lokala data, kan överträffa mycket större generella modeller som körs i molnet. Samtidigt varnar de måttliga poängen, särskilt på nya sjukhus och cancerformer, för att dagens verktyg inte är redo att ersätta mänskligt omdöme. Istället erbjuder MedQARo en stabil grund för nästa generation kliniska assistenter som kan hjälpa rumänska läkare att navigera komplexa cancerjournaler samtidigt som patienters säkerhet och integritet sätts i centrum.
Citering: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0
Nyckelord: medicinsk frågesvar, rumänskt språk AI, kliniska cancerjournaler, stora språkmodeller, MedQARo benchmark