Clear Sky Science · sv
Jämförelse av överensstämmelse mellan stora språkmodeller och publicerade kliniska prövningsslutsatser över fyra artificiella intelligensplattformar
Varför detta är viktigt för vardaglig sjukvård
Läkare förlitar sig på stora kliniska prövningar för att avgöra vilka behandlingar som är säkra och effektiva. Samtidigt blir nya artificiella intelligensverktyg allt bättre på att läsa och sammanfatta medicinsk forskning. Denna studie ställer en enkel men viktig fråga för patienter och kliniker: när dessa verktyg läser samma prövningar som mänskliga experter, kommer de då till samma slutliga slutsatser om vad som fungerar och vad som inte gör det?
Hur forskarna testade AI-verktygen
Teamet fokuserade på 20 välkända kliniska prövningar publicerade i New England Journal of Medicine, som täcker hjärtsjukdom, stroke, diabetes, cancer och neurokirurgi. Dessa prövningar valdes eftersom de var noggrant utformade och tydligt rapporterade, vilket gjorde dem till en stark testbädd. Istället för att mata systemen med fullständiga artiklar gav forskarna endast tabeller och figurer som innehöll siffrorna, såsom incidensräntor och utfallsgrafiker. Detta tvingade verktygen att luta sig mot själva data snarare än att enbart återge författarnas skriftliga sammanfattningar.

Vad AI-systemen ombads göra
Fyra vida använda stora språkmodeller testades: ChatGPT, Gemini, Grok3 och Claude. Varje modell fick samma standardiserade prompt som bad den tolka data på fem sätt. Modellerna måste förklara de övergripande fynden, tolka statistiken, koppla resultaten till patientvård, påpeka studiens begränsningar och föreslå hur fynden kan tillämpas i praktiken. Två tränade analytiker jämförde sedan varje AI-svar med den ursprungliga prövningsartikeln och poängsatte prestationen i var och en av dessa fem områden på en skala från noll till fem.
Hur väl AI stämde överens med mänskliga slutsatser
ChatGPT visade starkast överensstämmelse med de publicerade prövningsslutsatserna och fick en perfekt medianpoäng om 25 av 25 över de 20 prövningarna. Gemini följde med 21 av 25, medan Grok3 och Claude hamnade efter med medianpoäng på 18 respektive 17. Alla fyra verktygen presterade bäst när det gällde att beskriva varför resultaten är viktiga för patienter, och ChatGPT placerade sig särskilt i topp i varje domän. Gemini var också bra på att upptäcka studiebrister och potentiella confounders, medan Grok3 och Claude var mindre pålitliga när det gällde att känna igen begränsningar och att ge praktiska behandlingsförslag. De två mänskliga bedömarna var mycket överens med varandra, vilket tyder på att poängsättningsmetoden i sig var stabil.

Försiktighet kring dold träning och verklig säkerhet
Trots att siffrorna ser imponerande ut varnar författarna för att resultaten bör tolkas försiktigt. De prövningar som användes är välkända och förekommer sannolikt i träningsdata för dessa AI-system. Det innebär att verktygen kanske redan "känner till" dessa studier och kan återkalla mönster de sett tidigare snarare än att resonera självständigt utifrån de levererade tabellerna. Avsaknaden av blindning för vilket system som producerade varje svar lämnar också utrymme för subtil mänsklig bias i poängsättningen. Dessutom hade de valda prövningarna för det mesta tydliga, positiva fynd, vilket representerar ett bästa-fall-scenario istället för den röriga och osäkra forskning som ofta formar verkliga beslut.
Vad detta betyder för framtida vård
För en lekman är slutsatsen att vissa AI-verktyg, särskilt ChatGPT och Gemini, ofta kan läsa medicinska prövningsdata och hålla med experternas slutsatser, åtminstone för välkända, högkvalitativa studier. Detta antyder att de kan vara användbara hjälpmedel för att sammanfatta komplex forskning och organisera bevis, men de är inte redo att ersätta läkare eller forskare. Deras träningshistorik är ogenomskinlig, deras prestanda varierar mellan plattformar, och deras svar har inte visats vara säkra för att fatta direkta behandlingsbeslut. Författarna menar att AI bör ses som en kraftfull assistent som kan sålla bland siffror och lyfta fram mönster, medan mänskliga kliniker förblir ansvariga för omdöme, empati och slutgiltiga beslut om patientvård.
Citering: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2
Nyckelord: stora språkmodeller, kliniska prövningar, medicinsk AI, bevissyntes, kliniskt beslutsstöd