Clear Sky Science · sv

Främjar konversationsbaserad diagnostisk AI med multimodalt resonerande

2026-05-14 · Tillbaka till index

Varför smartare online-hälsosamtal är viktiga

Många av oss vänder oss nu till onlinesamtal eller appar när vi mår dåligt, och skickar foton på utslag, avfotograferade provsvar eller hjärtspårningar från en klocka. Ändå bygger de flesta hälsobotar fortfarande bara på text och bortser från denna rika ström av bilder och dokument. Den här artikeln undersöker en ny typ av medicinsk AI-assistent som både kan se och samtala, och som väver in bilder och journalhandlingar i konversationen på ett sätt som liknar vad en noggrann läkare skulle göra vid ett telehälsobesök.

Figure 1. AI-assistent som kombinerar chatt med medicinska foton och testbilder för att stödja fjärrdiagnostik.

En ny sorts medicinsk hjälpreda

Forskarna byggde en uppdaterad version av ett system som kallas Articulate Medical Intelligence Explorer, eller AMIE. Istället för att bara läsa och skriva kan denna nya multimodala AMIE ta emot hudfoton, elektrokardiogrambilder och kliniska dokument under ett chattförlopp. Den resonerar sedan kring allt detta tillsammans med patientens skrivna berättelse. I grunden körs AMIE på en kraftfull generell språk- och bildmodell, men är inramad i ett system som guidar den genom de typiska steg som ingår i ett medicinskt besök: att ställa frågor, formulera sannolika orsaker och föreslå nästa steg.

Styrda konversationer som anpassar sig

Riktiga läkare ställer inte frågor på måfå. De lyssnar, bygger en mental bild av patienten och anpassar sina frågor när nya ledtrådar dyker upp. För att efterlikna detta designade teamet det de kallar ett state aware dialogue framework (tillståndsmedvetet dialogramverk). Allteftersom chatten pågår håller AMIE en intern sammanfattning av patientens anamnes, symtom och eventuella uppladdade bilder eller dokument. Den håller också en dold lista över möjliga diagnoser och kunskapsluckor. Detta interna tillstånd hjälper AMIE att avgöra när den ska fortsätta ställa frågor om anamnesen, när den ska be om ett foto eller EKG, när den har tillräckligt med information för att skissera sannolika orsaker och hur den ska förklara vad den ser i bilderna.

Figure 2. Stegvis pipeline där blandad chatt och medicinska bilder bearbetas till klarare diagnoser och vårdplaner.

Att sätta AI och läkare på prov

För att se hur väl multimodala AMIE presterar genomförde teamet en stor simulerad telehälsoundersökning som liknade de praktiska prov som används i medicinska utbildningar. Tränade skådespelare spelade patienter i 105 olika scenarier som krävde både samtal och tolkning av visuellt material, såsom hudbilder, hjärtspårningar eller laboratorierapporter. Varje skådespelare hade två separata textkonsultationer, en med en specialist legitimerad primärvårdsläkare och en med AI-systemet, utan att veta vilken som var vilken. Därefter fyllde både de mänskliga klinikerna och AI:n i strukturerade sammanfattningar av sina diagnoser och vårdplaner. Oberoende specialistläkare och skådespelarna värderade sedan kvaliteten i varje konsultation.

Hur det nya systemet stod sig

I dessa scenarier var multimodala AMIE:s diagnoser oftare korrekta än primärvårdsläkarnas, både när man tittade på förstahandsvalet och på en bredare lista med möjliga diagnoser. Specialister bedömde också AMIE:s resonemang, användning av bilder och hantering av patientfrågor om bilderna som lika bra eller bättre än läkarens i de flesta avseenden. Noterbart är att när bilderna var av lägre kvalitet försämrades både AI:s och läkarnas prestationer, men AI:ns noggrannhet sjönk i mindre grad. Skådespelarna gav AI:n minst lika höga betyg som läkarna för artighet, tydlighet, empati och vilja att återvända för ett nytt besök, och de upplevde att AI:n gjorde ett bättre jobb med att ta upp och förklara vad som syntes i de uppladdade bilderna.

Test av systemets inre funktioner

Författarna granskade också varför systemet fungerar som det gör. I datorbaserade simuleringar jämförde de fullversionen av AMIE med en enklare version som saknade den strukturerade, tillståndsmedvetna resoneringsdelen. Fullversionen gjorde inte bara mer korrekta diagnoser utan samlade också in information mer effektivt och producerade mer lämpliga vårdplaner. När de tog bort fram-och-tillbaka-dialogen och bad modellen arbeta enbart utifrån bilder försämrades prestandan tydligt, vilket visar att dialog och anamnes fortfarande är viktiga även för en AI som kan se. Ytterligare tester antydde att finjustering av den underliggande modellen enbart för snäva medicinska uppgifter kan förbättra vissa färdigheter men skada andra, så författarna fokuserade istället på noggrann design av resoneringsprocessen ovanpå modellen.

Vad detta kan innebära för framtidens vård

Studien tyder på att AI-system som kan kombinera samtal med syn skulle kunna hjälpa kliniker hantera komplexa fjärrkonsultationer säkrare och mer effektivt. Genom att tolka patientleverade foton, hjärtspårningar och dokument inom en genomtänkt konversation nådde multimodala AMIE ofta samma eller bättre prestation än primärvårdsläkare i denna kontrollerade miljö, samtidigt som systemet bibehöll starka betyg för empati och kommunikation. Författarna poängterar att detta fortfarande är explorativt arbete, inte en verklig klinisk prövning, och mycket återstår att göra för att pröva säkerhet, rättvisa och inverkan i praktiken. Ändå pekar det mot en framtid där AI-verktyg fungerar som kompetenta partners i telehälsa och hjälper både patienter och vårdgivare att bättre utnyttja de bilder och den information som redan flödar genom våra skärmar.

Citering: Saab, K., Park, C., Strother, T. et al. Advancing conversational diagnostic AI with multimodal reasoning. Nat Med 32, 1726–1736 (2026). https://doi.org/10.1038/s41591-026-04371-0

Nyckelord: multimodal medicinsk AI, telehälsa, diagnostisk konversation, kliniskt beslutsstöd, medicinska chattrobotar