Clear Sky Science · he

הערכת ChatGPT-4o ו‑Gemini לניהול גאוטה: ניתוח השוואתי על בסיס הנחיות EULAR

· חזרה לאינדקס

מדוע צ׳אטים חכמים ומפרקים כואבים חשובים

גאוטה, צורת דלקת מפרקים כואבת שלעיתים תוקפת בעיקר את הבוהן הגדולה, הופכת שכיחה יותר ברחבי העולם. לרופאים קיימות כבר הנחיות מבוססות מדע לאבחון ולטיפול, אך רבים מהחולים עדיין אינם מקבלים טיפול אידיאלי. במקביל, צ׳אטבוטים מתקדמים מבוססי בינה מלאכותית כגון ChatGPT-4o ו‑Gemini מתחילים להיכנס למערכת הקלינית, והם מעלים שאלה פשוטה אך מכרעת: האם כלים אלה יכולים לספק עצות בטוחות והולמות לפי ההנחיות לגבי גאוטה, או שמא יטעו ויפתו רופאים ומטופלים למידע שגוי?

Figure 1
Figure 1.

בדיקה עד כמה הצ׳אטים מצייתים לכללי המקצוע

החוקרים ניתחו שניים מהמודלים המובילים—ChatGPT-4o ו‑Gemini 2.0 Flash—מול ההנחיות הרשמיות האירופיות (EULAR) לגאוטה. שני מומחים הפכו 25 המלצות מפתח מההנחיות לשאלות בסגנון רופא על בעיות מהשטח: כיצד לאבחן גאוטה, מתי להתחיל טיפול להורדת חומצת שתן, כיצד לנהל התקפי דלקת חריפים, אילו יעדים יש לשאוף אליהם בבדיקות דם, וכיצד יש להתאים אורח חיים או תרופות אחרות. שניהם נשאלו את אותן שאלות במפגשים נפרדים ונקיים כדי שתשובות קודמות לא ישפיעו על תשובות חדשות.

כיצד נמדדו התשובות

כל תשובה דורגה על ידי שני רופאים מנוסים המתמחים בגאוטה, שלא ידעו איזה מודל הפיק את הטקסט. הם נתנו ציונים לשלוש קטגוריות. ראשית, אמינות: האם התשובה נראית מאוזנת, אובייקטיבית ומהימנה, או שמא היא משאירה עובדות מהותיות בחוץ או מגזימה ביתרונות? שנית, איכות: האם התשובה ברורה, מאורגנת היטב ושימושית למומחה שמקבל החלטות? שלישית, התאמה להנחיות: האם היא תואמת את מה ש‑EULAR ממליצה בפועל, מסכימה חלקית עם פערים מסוימים, או סותרת באופן ישיר את הכללים? הצוות בדק גם את רמת הקושי בקריאה באמצעות מבחני קריאות סטנדרטיים שמעריכים את רמת ההשכלה הנדרשת להבנת הטקסט.

ChatGPT מול Gemini: מי ביצע טוב יותר?

שני הצ׳אטבוטים הפיקו תשובות סבירות וברורות באופן כללי, ושניהם לעתים קרובות הזכירו להתייעץ עם איש מקצוע בתחום הבריאות. אך הופיעו הבדלים משמעותיים. ChatGPT-4o התאמה מלאה להנחיות בגאוטה ב‑76% מהמקרים, וסיפק תשובות נכונות אך חלקיות ב‑20% נוספים, כאשר רק תשובה אחת כללה טעות רפואית ברורה. Gemini התאמה מלאה ב‑48% מהתשובות וסיפק תשובות נכונות אך חלקיות ב‑32%. מדאיג יותר, ב‑12% מתשובותיו ניכרה תערובת של רעיונות נכונים עם מידע שגוי, וב‑8% הוא סתר במפורש את ההנחיות—למשל, הצעה לשימוש רחב בקבוצת תרופות אנטי‑דלקתיות חזקה (מעכבי IL‑1) שבהן EULAR שומרת שימוש למטופלים סלקטיביים וקשים לטיפול, או עידוד להתחלת טיפול להורדת חומצת שתן שגרתי במהלך התקף חריף, תחום שבו המומחים ממליצים לרוב על זהירות רבה יותר.

קריא, אבל לא קריא מספיק

מבחינת סגנון, שני המערכות היו דומות באופן מפתיע. במדדי קריאה מרובים הפיקו שתיהן טקסט שלפי ההערכה דרש לפחות השכלה ברמת תואר ראשון כדי להילקח בקלות. זה עשוי להתאים לרופאים מומחים אך מורכב מדי עבור רוב המטופלים. אף אחד מהמודלים לא הציג הפניות או קישורים למקורות אלא אם נתבקש במפורש, מה שהקשה על אימות מקור המידע. ההסכמה בין המדרגים הוגדרה כטובה עד מצוינת, מה שמרמז שהדירוגים היו עקביים ושההבדלים בין הצ׳אטבוטים אמיתיים ולא עניין של דעה סובייקטיבית.

Figure 2
Figure 2.

מה המשמעות עבור אנשים החיים עם גאוטה

בסך הכל, המחקר מציע שצ׳אטבוטים מתקדמים יכולים לשמש ככלים תומכים מועילים לרופאים המנהלים גאוטה, אך הם אינם מוכנים להחליף את הרופא באופן עצמאי. ChatGPT-4o היה אמין יותר, שלם יותר ונאמן יותר להנחיות המומחים מאשר Gemini, אך גם טעויותיו החריגות עלולות להיות משמעותיות כשמדובר בתרופות ובבטיחות. שני הכלים הציגו רמה גבוהה מדי של מורכבות עבור רוב המטופלים וחסרו שקיפות מובנית לגבי מקורותיהם. לעת עתה, כותבי המאמר טוענים כי יש לראות בבינה מלאכותית כלי תומך מבטיח שיכול לסייע למטפלים ולמורים—אך רק כאשר עצותיה נבדקות מול הנחיות מעודכנות ושיקול דעת מומחה, במיוחד במצבים כמו גאוטה שבהם פרטי מינון קטנים והחלטות תזמון עשויים להשפיע רבות על הכאב, הנזק לטווח הארוך ואיכות החיים.

ציטוט: Meral, H.B., Kolak, E. Evaluation of ChatGPT-4o and Gemini for gout management: a comparative analysis based on EULAR guidelines. Sci Rep 16, 4831 (2026). https://doi.org/10.1038/s41598-026-35166-5

מילות מפתח: גאוטה, הנחיות קליניות, בינה מלאכותית, מודלים שפה גדולים, ראומטולוגיה