Clear Sky Science · sv
Mänsklig kontra artificiell intelligens vid diagnos av oral patologi: en jämförande studie av ChatGPT, Grok och MANUS
Varför detta är viktigt för ditt nästa tandläkarbesök
När en tandläkare hittar en misstänkt fläck i din mun är det vanligtvis en specialist som undersöker vävnaden i mikroskop som avgör om den är ofarlig eller farlig. Det arbetet är noggrant, tidskrävande och i många delar av världen finns det för få experter. Denna studie ställer en aktuell fråga: kan moderna artificiella intelligenssystem hjälpa till att läsa dessa mikroskopbilder av munslemhinnevävnad med en noggrannhet som är nära specialisternas, och därigenom göra diagnoser snabbare, mer konsekventa och mer tillgängliga?

Vad forskarna ville pröva
Teamet fokuserade på tre avancerade datorprogram kända för att förstå både bilder och språk: ChatGPT, Grok och ett medicinskt system kallat MANUS. Istället för att använda verkliga patientdata använde de 100 tydliga, högkvalitativa mikroskopbilder från en standardlärobok om orala sjukdomar. Varje bild visade en annan typ av förändring, från tidiga förstadier till cancer till tumörer, cystor och reaktiva tillväxter. Två erfarna orala patologer kom först överens om den korrekta diagnosen för varje preparat, vilket skapade en stark mänsklig referens att jämföra maskinerna mot.
Hur huvud‑till‑huvud‑jämförelsen genomfördes
Varje av de 100 preparaten visades för alla tre AI‑system med samma korta meddelande som beskrev fallet och samma digitala bild. Modellerna ombads ange den enskilt mest sannolika diagnosen, precis som en specialist skulle göra i ett utlåtande. För att se om systemen gav konsekventa svar över tid upprepade forskarna hela processen två veckor senare med samma bilder och instruktioner. Samtidigt granskade de två mänskliga patologerna preparaten oberoende av varandra utan att se AI‑svaren och diskuterade sedan eventuella skillnader tills de nådde en slutlig överenskommelse. Dessa expertbeslut behandlades som bästa tillgängliga svar.

Hur väl maskinerna och människorna presterade
Alla tre AI‑verktyg presterade anmärkningsvärt bra. I den andra testomgången identifierade Grok korrekt 97 av 100 fall, MANUS 96 och ChatGPT 94. De två mänskliga specialisterna fick något högre poäng och klassificerade 98 preparat korrekt. ChatGPT utmärkte sig genom att ge nästan exakt samma svar i båda omgångarna, vilket visar mycket stark intern konsistens, medan MANUS och Grok också visade stabila och tillförlitliga prestationer. När systemen jämfördes sinsemellan var de överens i majoriteten av fallen, vilket tyder på att olika AI‑arkitekturer ändå kan nå mycket likartade bedömningar när de får samma högkvalitativa bilder.
Hur nära AI kom expertresonemanget
Att matcha rätt svar är bara en del av bilden; det är också viktigt om datorerna tenderar att stämma överens med människors resonemang. Här visade MANUS närmast överensstämmelse med patologernas beslut, även när det inte var mer exakt än Grok i ren noggrannhet. Grok, som var något mer exakt totalt sett, valde ibland andra alternativ än experterna i de få svåra fallen. De flesta felen hos alla tre systemen uppstod i preparat som var visuellt förvirrande även för utbildade ögon, där vävnadsförändringar överlappade eller såg gränsfalliga ut mellan två tillstånd. Trots detta fanns inga stora prestationsskillnader mellan modellerna, och alla tre visade överensstämmelsenivåer med människor som författarna beskriver som måttliga till betydande.
Vad detta kan innebära för framtida vård
Studien tyder på att dagens multimodala AI‑system redan kan fungera som pålitliga stöd vid mikroskopisk diagnos av orala sjukdomar. De är ingen ersättning för patologer, som fortfarande hade bäst total noggrannhet och ger avgörande kliniskt omdöme, men de skulle kunna fungera som snabba andraläsare, stödja utbildningen av nya specialister eller erbjuda expertstöd i regioner med begränsad tillgång till tandpatologiska tjänster. Eftersom forskningen använde noggrant utvalda läroboksbilder snarare än röriga verkliga prov betonar författarna att mer testning behövs på större, mer varierade kliniska samlingar och med kompletterande patientinformation. Om dessa ytterligare prövningar bekräftar det inledande löftet kan AI göra diagnoser av munsjukdomar mer precisa, konsekventa och tillgängliga för patienter överallt.
Citering: Alshammari, A.F., Madfa, A.A. & Anazi, B.A. Human versus artificial intelligence in oral pathology diagnosis: a comparative study of ChatGPT, Grok, and MANUS. Sci Rep 16, 11057 (2026). https://doi.org/10.1038/s41598-026-40792-0
Nyckelord: oral patologi, digital patologi, artificiell intelligens, stora språkmodeller, histopatologisk diagnos