Clear Sky Science · sv

Utvärdering av ChatGPT-4o och Gemini för behandling av gikt: en jämförande analys baserad på EULAR‑riktlinjer

2026-01-07 · Tillbaka till index

Varför smarta chattbottar och ömma leder spelar roll

Gikt, en smärtsam form av artrit som ofta angriper stortån, blir allt vanligare världen över. Läkare har redan tydliga, vetenskapsbaserade riktlinjer för hur sjukdomen ska diagnostiseras och behandlas, men många patienter får fortfarande inte optimal vård. Samtidigt börjar kraftfulla AI‑chattbotar som ChatGPT‑4o och Gemini dyka upp i kliniska miljöer, vilket reser en enkel men avgörande fråga: kan dessa verktyg verkligen ge säkra, riktlinjekonforma råd om gikt, eller kan de vilseleda läkare och patienter?

Kontroll av hur väl chattbotarna följer regelboken

Forskarna satte upp ett test där två ledande språkmodeller—ChatGPT‑4o och Gemini 2.0 Flash—jämfördes mot de officiella europeiska (EULAR) riktlinjerna för gikt. Två specialister omvandlade 25 centrala rekommendationer från riktlinjerna till läkarliknande frågor om verkliga kliniska problem: hur man diagnostiserar gikt, när man ska starta uratsänkande läkemedel, hur man hanterar skov, vilka mål som ska eftersträvas i blodprover och hur livsstilsfaktorer eller andra läkemedel bör justeras. Båda chattbotarna fick samma frågor i separata, rena sessioner så att tidigare svar inte skulle påverka nya.

Hur svaren poängsattes

Varje svar bedömdes av två erfarna kliniker med inriktning på gikt, som inte visste vilken modell som producerat texten. De poängsatte tre aspekter. För det första tillförlitlighet: verkar svaret balanserat, objektivt och trovärdigt, eller utelämnar det viktiga fakta eller överdriver fördelar? För det andra kvalitet: är svaret klart, välorganiserat och användbart för en specialist i beslutsfattande? För det tredje överensstämmelse med riktlinjer: stämmer det med vad EULAR faktiskt rekommenderar, håller det delvis med men saknar viktiga delar, eller strider det direkt mot riktlinjerna? Teamet kontrollerade också hur svårläst svaren var med standardiserade läsbarhetstester som uppskattar vilken utbildningsnivå som krävs för att förstå en text.

ChatGPT vs. Gemini: vem gjorde bäst ifrån sig?

Båda chattbotarna gav generellt vettiga, klart formulerade svar och påminde ofta läsaren om att konsultera en vårdgivare. Men viktiga skillnader framträdde. ChatGPT‑4o överensstämde fullt ut med gikt‑riktlinjerna i 76 % av fallen och gav mestadels korrekta men ofullständiga svar i ytterligare 20 %, med endast ett enda svar som innehöll ett tydligt medicinskt fel. Gemini var fullt överens i 48 % av svaren och delvis korrekta men ofullständiga i 32 %. Mer oroande var att 12 % av dess svar blandade korrekta idéer med felaktig information och 8 % öppet motsade riktlinjerna—till exempel genom att föreslå bred användning av en kraftfull antiinflammatorisk läkemedelsgrupp (IL‑1‑hämmare) där EULAR reserverar dessa för utvalda, svårbehandlade patienter, eller genom att uppmana till rutinmässig start av uratsänkande behandling under ett akut skov, ett område där experter råder större försiktighet.

Läsbart, men inte lättläst

När det gäller stil var de två systemen förvånansvärt lika. På flera lässkalaer producerade båda texter som krävde minst universitetsnivå för att följa dem bekvämt. Det kan vara acceptabelt för specialistläkare men är allt för komplext för de flesta patienter. Ingen av modellerna angav referenser eller länkar till källor om de inte specifikt ombads, vilket gjorde det svårt att verifiera var informationen kom ifrån. Granskarnas överensstämmelse sinsemellan bedömdes som god till utmärkt, vilket tyder på att poängsättningen var konsekvent och att skillnaderna mellan chattbotarna var verkliga snarare än rena åsikter.

Vad detta betyder för personer som lever med gikt

Sammanfattningsvis tyder studien på att avancerade chattbotar kan vara användbara assistenter för läkare som hanterar gikt, men att de inte är redo att agera på egen hand. ChatGPT‑4o var mer tillförlitlig, mer komplett och mer trogen expert‑riktlinjerna än Gemini, trots att även dess sällsynta fel kan få betydelse när medicinering och säkerhet står på spel. Båda verktygen kommunicerade på en nivå som var för komplicerad för de flesta patienter och saknade inbyggd transparens om sina källor. För närvarande menar författarna att AI bör ses som ett lovande stödinstrument som kan hjälpa kliniker och utbildare—men endast när dess råd kontrolleras mot aktuella riktlinjer och expertbedömning, särskilt i tillstånd som gikt där små dosdetaljer och tidsmässiga beslut kan göra stor skillnad för smärta, långsiktig skada och livskvalitet.

Citering: Meral, H.B., Kolak, E. Evaluation of ChatGPT-4o and Gemini for gout management: a comparative analysis based on EULAR guidelines. Sci Rep 16, 4831 (2026). https://doi.org/10.1038/s41598-026-35166-5

Nyckelord: gikt, kliniska riktlinjer, artificiell intelligens, stora språkmodeller, reumatologi