Clear Sky Science · he
הערכה רב-תחומית של מודלי שפה גדולים בשאלות בנוגע לניתוחי בריאטריה: ניתוח השוואתי של ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus ו-Gemini Pro
מדוע הדבר חשוב לאנשים השוקלים ניתוח להורדת משקל
אנשים השוקלים ניתוח להורדת משקל פונים לעיתים קרובות לכלים מקוונים ולצ׳אטבוטים כדי לקבל תשובות מהירות. המחקר הזה שואל שאלה פשוטה אך חשובה: כאשר צ׳אטבוטים מבוססי מודלים של שפה עונים על שאלות שכיחות בתחום הבריאטרי, עד כמה התשובות שלהן מדויקות ושלמות, והאם הן יכולות באמת לתמוך במטופלים וברופאים?
צ׳אטבוטים מודרניים נכנסים למרפאה
החוקרים בחנו ארבעה צ׳אטבוטים נפוצים המבוססים על מודלי שפה גדולים: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus ו-Gemini Pro. הם התמקדו בשאלות מהעולם האמיתי על ניתוחי בריאטריה, כגון מי זכאי, איך להתכונן, אילו סיכונים צפויים ואילו שינויים באורח החיים נדרשים לאחר הניתוח. מתוך מאגר ראשוני של 200 שאלות שנאספו מתוך ספרות רפואית, רשתות חברתיות וביקורי מרפאה, נבחרו 50 ששיקפו בצורה הטובה ביותר את דאגות המטופלים. כל צ׳אטבוט ענה על 50 השאלות, ויצר 200 תשובות בסך הכל, שהופרטו ותקננו לצורך הסקירה.

הרבה מומחים, לא נקודת מבט בודדת
במקום לבקש רק מנתחים לשפוט את התשובות, הצוות הרכיב פאנל רב-תחומי של שבעה אנשי מקצוע מנוסים: ארבעה מנתחים בריאטריים, רופא השמנה אחד ושני דיאטנים. כל מומחה דירג באופן עצמאי עד כמה כל תשובה הייתה מדויקת, ולתשובות הטובות יותר גם עד כמה היו מקיפות. הדיוק הוערך בקנה מידה תלת-שלבי שנע בין שגוי באופן ברור ופוטנציאלית מזיק לבין נכון לחלוטין. השלמות הוערכה בקנה מידה חמש-שלבי שהציין עד כמה התשובה כיסתה נקודות מפתח כמו פרטי הניתוח, סיכונים וטיפול מעקב. תהליך הדירוג היה מעמעם כך שהבוחנים לא ידעו איזה צ׳אטבוט ייצר כל תשובה, והתשובות ערבבו ונפרסו על פני מספר מפגשים להפחתת הטיית שיפוט.
איך הצ׳אטבוטים הופיעו בביצועים
בסיכום, ארבעת הצ׳אטבוטים הראו תוצאות מעורבות. ERNIE Bot 4.0 השיג את ציון הדיוק הממוצע הגבוה ביותר כאשר סוכמו כל דירוגי המומחים, אך ל-ChatGPT-4 היה החלק הגבוה ביותר של תשובות שנשפטו פשוט כטובות, והוא כלל לא קיבל דירוגים רעים. Claude 3 Opus נטה לתת את התשובות הארוכות והמפורטות ביותר, בעוד ש-Gemini Pro נשאר רחוק מאחור מבחינת דיוק — פחות ממחצית תשובותיו הוערכו כטובות וכמה מהן קיבלו דירוגים רעים מרוב הבוחנים. כל הצ׳אטבוטים התקשו לספק כיסוי מלא של הנושאים: גם התשובות הטובות יותר הגיעו בדרך כלל רק לרמות פירוט בינוניות, ואף אחד לא סיפק בעקביות את עומק המידע שהמטופלים צריכים לקבל החלטה מושכלת לגבי ניתוח.

איפה התשובות קוטעות
התחום החלש ביותר לכל צ׳אטבוט היה הסבר על התאוששות, סיכונים וסיבוכים. נושאים אלה לעתים קרובות מערבים פשרות עדינות ומעקב ארוך טווח, שהכלים נטו לפשט יתר על המידה. חלק מהתשובות יצרו ציפיות לא ריאליות לגבי איבוד משקל או השמיטו מידע בטיחותי חשוב, בעוד שאחרות נתנו עצות כלליות מדי ולא מועילות למטופלים בפועל. כשהמומחים ביקשו מהצ׳אטבוטים לבדוק ולתקן את התשובות הגרועות ביותר, רוב הכלים השתפרו במידה ניכרת, במיוחד כאשר הונחו לחפש מקורות מבוססי ראיות ברשת. עם זאת, גם עם תיקון עצמי וחיפוש אינטרנטי, חלק מהתשובות מדגמים מסוימים נשארו לא מדויקות, מה שמראה שלגישה לאינטרנט בלבד אין ערובה להנחיה רפואית אמינה.
מה המשמעות למטופלים ולמטפלים
בשלב זה המחקר מציע שמודלי שפה גדולים יכולים להיות מועילים ככלי חינוכי בנוגע לניתוחי בריאטריה, בעיקר לשאלות בסיסיות ולחיפוש מידע ראשוני. הם אינם מוכנים להחליף ייעוץ מקצועי או להנחות החלטות בנוגע לניתוח, להתאוששות או לטיפול ארוך טווח באופן עצמאי. המחברים טוענים שהשימוש הבטוח יצריך מודלים המותאמים לרפואת בריאטריה, מבוססים על ראיות מוצקות ומפותחים בשיתוף פעולה מתמשך עם מנתחים, רופאים, דיאטנים ואחיות. בעיצוב זהיר ופיקוח קפדני, כלים אלה עשויים בסופו של דבר לתמוך בשיחות מושכלות יותר בין מטופלים וצוותי הטיפול שלהם במקום להחליפן.
ציטוט: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6
מילות מפתח: ניתוח בריאטרי, ניתוחי ירידה במשקל, צ׳אטבוטים רפואיים, מודלי שפה גדולים, חינוך מטופלים