Clear Sky Science · pl

Wielodyscyplinarna ocena ekspercka dużych modeli językowych na pytania dotyczące chirurgii bariatrycznej: analiza porównawcza ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus i Gemini Pro

2026-04-01 · Powrót do spisu

Dlaczego to ma znaczenie dla osób rozważających operację odchudzającą

Osoby rozważające operację odchudzającą często sięgają po narzędzia online i chatboty w poszukiwaniu szybkich odpowiedzi. Badanie stawia proste, lecz ważne pytanie: jak dokładne i kompletne są odpowiedzi chatbotów opartych na dużych modelach językowych na typowe pytania o chirurgię bariatryczną i czy rzeczywiście mogą wspierać pacjentów oraz lekarzy?

Nowoczesne chatboty wkraczające do praktyki klinicznej

Badacze przeanalizowali cztery powszechnie używane chatboty oparte na dużych modelach językowych: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus i Gemini Pro. Skoncentrowali się na pytaniach z praktyki klinicznej dotyczących chirurgii bariatrycznej, takich jak kto kwalifikuje się do zabiegu, jak się przygotować, jakich ryzyk się spodziewać i jakie zmiany stylu życia są potrzebne po operacji. Z początkowej puli 200 pytań zebranych z literatury medycznej, mediów społecznościowych i wizyt ambulatoryjnych wybrano 50, które najlepiej odzwierciedlały obawy pacjentów. Każdy chatbot odpowiedział na wszystkie 50 pytań, w efekcie wygenerowano 200 odpowiedzi, które następnie przetłumaczono i ustandaryzowano do oceny.

Figure 1. Eksperci oceniają cztery chatboty AI odpowiadające na typowe pytania dotyczące operacji odchudzających pod kątem bezpieczeństwa i przydatności.

Wielu ekspertów, nie tylko jedno spojrzenie

Zespół nie ograniczył się do oceny odpowiedzi jedynie przez chirurgów — powołano wielodyscyplinarną komisję siedmiu doświadczonych specjalistów: czterech chirurgów bariatrycznych, jednego lekarza zajmującego się otyłością oraz dwóch dietetyków. Każdy ekspert niezależnie ocenił, jak dokładna była każda odpowiedź, a dla lepszych odpowiedzi oceniono także ich wyczerpujący charakter. Dokładność oceniano w trzystopniowej skali od wyraźnie błędnej i potencjalnie szkodliwej do w pełni poprawnej. Kompletność oceniano w pięciostopniowej skali odzwierciedlającej, jak dobrze odpowiedź obejmowała kluczowe punkty, takie jak szczegóły procedury, ryzyka i opieka pooperacyjna. Proces oceniania był zaślepiony — recenzenci nie wiedzieli, który chatbot wygenerował daną odpowiedź, a odpowiedzi zostały przemieszane i rozdzielone na kilka sesji, aby zmniejszyć uprzedzenia.

Jak poradziły sobie chatboty

Ogólnie cztery chatboty wykazały mieszane wyniki. ERNIE Bot 4.0 osiągnął najwyższy średni wynik dokładności po zsumowaniu ocen wszystkich ekspertów, ale ChatGPT-4 miał największy udział odpowiedzi ocenionych po prostu jako dobre i nie otrzymał żadnych ocen słabych. Claude 3 Opus często formułował najdłuższe i najbardziej szczegółowe odpowiedzi, podczas gdy Gemini Pro zdecydowanie odstawał pod względem dokładności — mniej niż połowa jego odpowiedzi została oceniona jako dobra, a wiele uzyskało oceny słabe od większości recenzentów. Wszystkie chatboty miały trudności z zapewnieniem pełnego pokrycia tematów: nawet lepsze odpowiedzi zazwyczaj osiągały jedynie umiarkowany poziom szczegółowości i żadna nie oferowała konsekwentnie takiej głębokości, jakiej potrzebują pacjenci podejmujący w pełni poinformowane decyzje o operacji.

Figure 2. Krok po kroku: jak chatboty AI tworzą odpowiedzi o chirurgii i w jaki sposób lekarze odróżniają bezpieczne wskazówki od ryzykownych porad.

Gdzie odpowiedzi zawodzą

Największą słabością wszystkich chatbotów było wyjaśnianie rekonwalescencji, ryzyk i powikłań. Tematy te często wiążą się z subtelnymi kompromisami i długoterminową obserwacją, które narzędzia miały tendencję upraszczać. Niektóre odpowiedzi tworzyły nierealistyczne oczekiwania co do utraty masy ciała lub pomijały istotne informacje dotyczące bezpieczeństwa, inne zaś były zbyt ogólnikowe, by były użyteczne dla rzeczywistych pacjentów. Gdy eksperci poprosili chatboty o przejrzenie i poprawienie najsłabszych odpowiedzi, większość narzędzi poprawiła się zauważalnie, zwłaszcza po skłonieniu ich do kontroli źródeł opartych na dowodach w internecie. Jednak nawet przy samokorekcie i przeszukiwaniu sieci niektóre odpowiedzi niektórych modeli pozostawały niepoprawne, co pokazuje, że dostęp do internetu sam w sobie nie gwarantuje wiarygodnych porad medycznych.

Co to oznacza dla pacjentów i klinicystów

Na razie badanie sugeruje, że chatboty oparte na dużych modelach językowych mogą być użyteczne jako narzędzia edukacyjne w chirurgii bariatrycznej, zwłaszcza przy podstawowych pytaniach i wstępnym poszukiwaniu informacji. Nie są jednak gotowe, by zastąpić profesjonalne porady ani samodzielnie prowadzić decyzji dotyczących operacji, rekonwalescencji czy długoterminowej opieki. Autorzy twierdzą, że bezpieczniejsze stosowanie będzie wymagać modeli dostosowanych do medycyny bariatrycznej, opartych na solidnych dowodach i rozwijanych z ciągłym udziałem chirurgów, lekarzy, dietetyków i pielęgniarek. Przy starannym projektowaniu i ścisłym nadzorze narzędzia te mogą docelowo wspierać lepiej poinformowane rozmowy między pacjentami a zespołami opieki, zamiast je zastępować.

Cytowanie: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6

Słowa kluczowe: chirurgia bariatryczna, operacje odchudzające, chatboty medyczne, duże modele językowe, edukacja pacjenta