Clear Sky Science · it

Valutazione multidisciplinare di modelli linguistici di grandi dimensioni su domande relative alla chirurgia bariatrica: analisi comparativa di ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus e Gemini Pro

2026-04-01 · Torna all'indice

Perché questo è importante per chi considera la chirurgia per la perdita di peso

Le persone che stanno valutando la chirurgia per la perdita di peso spesso si rivolgono a strumenti online e chatbot per ottenere risposte rapide. Questo studio pone una domanda semplice ma importante: quando i chatbot basati su modelli linguistici di grandi dimensioni rispondono a domande comuni sulla chirurgia bariatrica, quanto sono accurate e complete le loro risposte, e possono davvero supportare pazienti e clinici?

I chatbot moderni che entrano in ambito clinico

I ricercatori hanno esaminato quattro chatbot ampiamente usati basati su modelli linguistici di grandi dimensioni: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus e Gemini Pro. Si sono concentrati su domande del mondo reale relative alla chirurgia bariatrica, come chi è idoneo, come prepararsi, quali rischi aspettarsi e quali cambiamenti nello stile di vita sono necessari dopo l’intervento. Da un pool iniziale di 200 domande raccolte dalla letteratura medica, dai social media e dalle visite in clinica, hanno selezionato 50 domande che rappresentavano al meglio le preoccupazioni dei pazienti. Ogni chatbot ha risposto a tutte e 50 le domande, producendo in totale 200 risposte che sono poi state tradotte e standardizzate per la revisione.

Figure 1. Esperti valutano quattro chatbot IA che rispondono a domande comuni sulla chirurgia per la perdita di peso in termini di sicurezza e utilità.

Molti esperti, non un solo punto di vista

Invece di chiedere solo ai chirurghi di giudicare le risposte, il team ha costituito un panel multidisciplinare di sette professionisti esperti: quattro chirurghi bariatrici, un medico specializzato in obesità e due dietisti. Ogni esperto ha valutato in modo indipendente quanto fosse accurata ogni risposta e, per le risposte migliori, quanto fosse esaustiva. L’accuratezza è stata valutata su una scala a tre livelli che andava da chiaramente errato e potenzialmente dannoso a completamente corretto. L’esaustività è stata valutata su una scala a cinque livelli che rifletteva quanto bene una risposta coprisse punti chiave come i dettagli della procedura, i rischi e l’assistenza di follow-up. Il processo di valutazione è stato in cieco, in modo che i revisori non sapessero quale chatbot avesse prodotto quale risposta, e le risposte sono state mescolate e distribuite in più sessioni per ridurre i bias.

Come si sono comportati i chatbot

Nel complesso, i quattro chatbot hanno mostrato risultati misti. ERNIE Bot 4.0 ha ottenuto il punteggio medio di accuratezza più alto quando si sono sommati tutti i voti degli esperti, ma ChatGPT-4 ha registrato la quota più alta di risposte giudicate semplicemente buone e non ha ricevuto valutazioni negative. Claude 3 Opus tendeva a fornire le risposte più lunghe e dettagliate, mentre Gemini Pro è rimasto molto indietro in termini di accuratezza, con meno della metà delle sue risposte valutate come buone e diverse classificate come scarse dalla maggior parte dei revisori. Tutti i chatbot hanno faticato a fornire una copertura completa degli argomenti: anche le risposte migliori raggiungevano di solito solo livelli moderati di dettaglio e nessuno offriva in modo consistente la profondità necessaria alle persone per prendere decisioni pienamente informate sull’intervento.

Figure 2. Visione passo dopo passo di come i chatbot IA generano risposte sulla chirurgia e di come i medici distinguono indicazioni più sicure da consigli potenzialmente rischiosi.

Dove le risposte risultano carenti

L’area più debole per ogni chatbot è stata la spiegazione del recupero, dei rischi e delle complicanze. Questi argomenti spesso implicano valutazioni sottili e follow-up a lungo termine, che gli strumenti tendevano a semplificare eccessivamente. Alcune risposte hanno creato aspettative irrealistiche sulla perdita di peso o hanno omesso informazioni di sicurezza importanti, mentre altre hanno offerto consigli troppo generici per essere utili a pazienti reali. Quando gli esperti hanno chiesto ai chatbot di rivedere e correggere le loro risposte peggiori, la maggior parte degli strumenti è migliorata in modo evidente, soprattutto quando è stato richiesto di verificare fonti basate su evidenze online. Tuttavia, anche con l’autocorrezione e la ricerca web, alcune risposte di certi modelli sono rimaste inaccurate, dimostrando che l’accesso a Internet da solo non garantisce indicazioni mediche affidabili.

Cosa significa per pazienti e clinici

Per ora, lo studio suggerisce che i chatbot basati su modelli linguistici di grandi dimensioni possono essere utili come strumenti educativi per la chirurgia bariatrica, specialmente per domande di base e nella fase iniziale di ricerca di informazioni. Non sono pronti a sostituire il parere professionale né a guidare autonomamente decisioni su intervento, recupero o cure a lungo termine. Gli autori sostengono che un uso più sicuro richiederà modelli tarati sulla medicina bariatrica, fondati su evidenze solide e sviluppati con il contributo continuo di chirurghi, medici, dietisti e infermieri. Con progettazione attenta e sorveglianza rigorosa, questi strumenti potrebbero infine supportare conversazioni più informate tra pazienti e team di cura anziché sostituirsi a loro.

Citazione: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6

Parole chiave: chirurgia bariatrica, chirurgia per la perdita di peso, chatbot medici, modelli linguistici di grandi dimensioni, educazione del paziente