Clear Sky Science · sv

Systematisk jämförelse visar att stora språkmodeller inte nått den diagnostiska träffsäkerheten hos traditionella beslutsstödsverktyg för sällsynta sjukdomar

· Tillbaka till index

Varför detta spelar roll för patienter och läkare

När någon har en sällsynt sjukdom kan det ta år av osäkerhet, upprepade tester och besök hos många specialister innan rätt diagnos fastställs. Samtidigt hyllas kraftfulla nya artificiella intelligenssystem, kallade stora språkmodeller, som potentiella omvälvande verktyg för medicin. Denna studie ställer en enkel men avgörande fråga: är dessa nya AI‑chattbotar verkligen bättre på att känna igen sällsynta genetiska sjukdomar än de specialiserade verktyg som läkare redan använder, eller återstår det fortfarande en väg att gå?

Sällsynta sjukdomar och den långa vägen till svar

Även om varje sällsynt sjukdom drabbar relativt få personer finns det fler än 10 000 sådana tillstånd, och tillsammans berör de upp till en av tolv individer. Många av dessa patienter upplever en "diagnostisk odyssé" som varar fem till sju år innan någon kan sätta namn på vad som är fel. För genetiska tillstånd är ett nyckelsteg att matcha en persons kombination av symtom, laboratorieresultat och röntgenfynd mot kända mönster för specifika sjukdomar. Etablerade datorprogram hjälper redan till med detta genom att använda standardiserade vokabulärer av medicinska kännetecken för att söka bland tusentals möjliga tillstånd.

Att testa chattbotar och traditionella verktyg

Forskarna sammanställde en stor samling på mer än femtusen verkliga men anonymiserade fall av patienter med bekräftade sällsynta genetiska eller kromosomala sjukdomar. Varje fall hade noggrant konverterats till ett strukturerat format som kodar personens ålder, kön, symtom och testfynd med hjälp av en gemensam medicinsk ordbok. Från dessa strukturerade journaler genererade teamet automatiskt korta fallbeskrivningar som kunde ges till sju olika språkmodeller, inklusive allmänna system och modeller tränade särskilt på medicinsk text. Parallellt matade de samma strukturerade data in i Exomiser, ett vida använt beslutsstödsprogram för sällsynta sjukdomar, men utan att ge det någon genetisk sekvensinformation så att jämförelsen skulle vara rättvis.

Figure 1
Figure 1.

Att poängsätta vem som hittade rätt sjukdom

Att jämföra svaren från chattbotar och traditionell mjukvara är svårare än det låter, eftersom språkmodeller svarar i fri text som kan använda olika sjukdomsnamn eller detaljnivåer. För att undvika att förlita sig på mänsklig bedömning av om ett svar var "tillräckligt nära" kopplade teamet varje föreslagen diagnos till ett enhetligt sjukdomskatalog. Ett förslag räknades som korrekt om det matchade den exakta sjukdomen, ett ekvivalent namn eller en något mer generell benämning som klart inkluderade det sanna tillståndet. För varje fall mätte de sedan var det korrekta svaret dök upp i modellens rankade lista—förstaplats, bland de tre främsta eller någonstans bland de tio främsta.

Vad jämförelsen visade

Över alla 5 213 fall presterade Exomiser tydligt bättre än varje testad språkmodell. Genom att endast använda symtominformation placerade Exomiser den korrekta diagnosen först i ungefär ett av tre fall och bland de tio främsta i klart över hälften. Den bästa språkmodellen, ett resonemangsinriktat system, nådde förstaplats i strax under en fjärdedel av fallen och topp tio i något mer än en tredjedel. Andra medicinskt inriktade modeller klarade sig märkbart sämre, och en mycket stor medicinsk modell föreslog nästan aldrig rätt sjukdom. Dessa mönster höll i sig även när forskarna tittade separat på hjärt-, hjärn‑ eller immunrelaterade störningar och när de delade upp fallen efter hur detaljerade symtombeskrivningarna var.

Figure 2
Figure 2.

Vad detta betyder för AI:s framtid inom diagnostik

Denna studie visar att trots sina imponerande språkliga förmågor är dagens stora språkmodeller ännu inte lika pålitliga som specialiserade verktyg för att diagnostisera sällsynta genetiska sjukdomar enbart utifrån symtombeskrivningar. De kan fortfarande vara användbara som assistenter—till exempel för att hjälpa läkare att tänka på möjliga diagnoser eller förklara tillstånd på begriplig svenska—men de bör inte ersätta etablerad programvara när liv och långdragna väntan står på spel. Författarna argumenterar för att den mest lovande vägen framåt är att väva in språkmodeller i omsorgsfullt utformade diagnostiska arbetsflöden där de arbetar tillsammans med, snarare än i stället för, betrodda bioinformatiska verktyg.

Citering: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5

Nyckelord: sällsynta sjukdomar, medicinsk diagnos, stora språkmodeller, kliniskt beslutsstöd, genetiska störningar