Clear Sky Science · it
Valutazione multidisciplinare di modelli linguistici di grandi dimensioni su domande relative alla chirurgia bariatrica: analisi comparativa di ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus e Gemini Pro
Perché questo è importante per chi considera la chirurgia per la perdita di peso
Le persone che stanno valutando la chirurgia per la perdita di peso spesso si rivolgono a strumenti online e chatbot per ottenere risposte rapide. Questo studio pone una domanda semplice ma importante: quando i chatbot basati su modelli linguistici di grandi dimensioni rispondono a domande comuni sulla chirurgia bariatrica, quanto sono accurate e complete le loro risposte, e possono davvero supportare pazienti e clinici?
I chatbot moderni che entrano in ambito clinico
I ricercatori hanno esaminato quattro chatbot ampiamente usati basati su modelli linguistici di grandi dimensioni: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus e Gemini Pro. Si sono concentrati su domande del mondo reale relative alla chirurgia bariatrica, come chi è idoneo, come prepararsi, quali rischi aspettarsi e quali cambiamenti nello stile di vita sono necessari dopo l’intervento. Da un pool iniziale di 200 domande raccolte dalla letteratura medica, dai social media e dalle visite in clinica, hanno selezionato 50 domande che rappresentavano al meglio le preoccupazioni dei pazienti. Ogni chatbot ha risposto a tutte e 50 le domande, producendo in totale 200 risposte che sono poi state tradotte e standardizzate per la revisione.

Molti esperti, non un solo punto di vista
Invece di chiedere solo ai chirurghi di giudicare le risposte, il team ha costituito un panel multidisciplinare di sette professionisti esperti: quattro chirurghi bariatrici, un medico specializzato in obesità e due dietisti. Ogni esperto ha valutato in modo indipendente quanto fosse accurata ogni risposta e, per le risposte migliori, quanto fosse esaustiva. L’accuratezza è stata valutata su una scala a tre livelli che andava da chiaramente errato e potenzialmente dannoso a completamente corretto. L’esaustività è stata valutata su una scala a cinque livelli che rifletteva quanto bene una risposta coprisse punti chiave come i dettagli della procedura, i rischi e l’assistenza di follow-up. Il processo di valutazione è stato in cieco, in modo che i revisori non sapessero quale chatbot avesse prodotto quale risposta, e le risposte sono state mescolate e distribuite in più sessioni per ridurre i bias.
Come si sono comportati i chatbot
Nel complesso, i quattro chatbot hanno mostrato risultati misti. ERNIE Bot 4.0 ha ottenuto il punteggio medio di accuratezza più alto quando si sono sommati tutti i voti degli esperti, ma ChatGPT-4 ha registrato la quota più alta di risposte giudicate semplicemente buone e non ha ricevuto valutazioni negative. Claude 3 Opus tendeva a fornire le risposte più lunghe e dettagliate, mentre Gemini Pro è rimasto molto indietro in termini di accuratezza, con meno della metà delle sue risposte valutate come buone e diverse classificate come scarse dalla maggior parte dei revisori. Tutti i chatbot hanno faticato a fornire una copertura completa degli argomenti: anche le risposte migliori raggiungevano di solito solo livelli moderati di dettaglio e nessuno offriva in modo consistente la profondità necessaria alle persone per prendere decisioni pienamente informate sull’intervento.

Dove le risposte risultano carenti
L’area più debole per ogni chatbot è stata la spiegazione del recupero, dei rischi e delle complicanze. Questi argomenti spesso implicano valutazioni sottili e follow-up a lungo termine, che gli strumenti tendevano a semplificare eccessivamente. Alcune risposte hanno creato aspettative irrealistiche sulla perdita di peso o hanno omesso informazioni di sicurezza importanti, mentre altre hanno offerto consigli troppo generici per essere utili a pazienti reali. Quando gli esperti hanno chiesto ai chatbot di rivedere e correggere le loro risposte peggiori, la maggior parte degli strumenti è migliorata in modo evidente, soprattutto quando è stato richiesto di verificare fonti basate su evidenze online. Tuttavia, anche con l’autocorrezione e la ricerca web, alcune risposte di certi modelli sono rimaste inaccurate, dimostrando che l’accesso a Internet da solo non garantisce indicazioni mediche affidabili.
Cosa significa per pazienti e clinici
Per ora, lo studio suggerisce che i chatbot basati su modelli linguistici di grandi dimensioni possono essere utili come strumenti educativi per la chirurgia bariatrica, specialmente per domande di base e nella fase iniziale di ricerca di informazioni. Non sono pronti a sostituire il parere professionale né a guidare autonomamente decisioni su intervento, recupero o cure a lungo termine. Gli autori sostengono che un uso più sicuro richiederà modelli tarati sulla medicina bariatrica, fondati su evidenze solide e sviluppati con il contributo continuo di chirurghi, medici, dietisti e infermieri. Con progettazione attenta e sorveglianza rigorosa, questi strumenti potrebbero infine supportare conversazioni più informate tra pazienti e team di cura anziché sostituirsi a loro.
Citazione: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6
Parole chiave: chirurgia bariatrica, chirurgia per la perdita di peso, chatbot medici, modelli linguistici di grandi dimensioni, educazione del paziente