Clear Sky Science · he

השפעת הסברים רפואיים ממודלים לשוניים גדולים על דיוק אבחוני ברדיולוגיה

· חזרה לאינדקס

מדוע המחקר הזה חשוב

בתי חולים מודרניים מאמצים במהירות כלים חזקים של בינה מלאכותית המבוססים טקסט כדי לסייע לרופאים לפענח מידע רפואי מורכב. רדיולוגים, המפענחים בדיקות כגון CT ו-MRI, נתונים ללחץ מתמיד לספק תשובות מהירות ומדויקות. המחקר שואל שאלה פשוטה אך חשובה: אם מערכת בינה מלאכותית לא רק נותנת אבחנה אלא גם מסבירה את אופן המחשבה שלה, האם זה באמת מסייע לרופאים לקבל החלטות טובות יותר — ובאיזה סגנון הסבר זה עובד הכי טוב?

Figure 1
Figure 1.

דרכים שונות שבהן AI "מדבר" עם רופאים

החוקרים התמקדו במודלים לשוניים גדולים (LLMs) — מערכות AI היכולות לקרוא ולכתוב בשפה טבעית ובמקרה הזה גם להסתכל על תמונות רפואיות. במקום להתייחס ל-AI כאל קופסה שחורה המפיקה תשובה אחת, הם בחנו שלושה פורמטים שונים שבהם היא יכולה להציג את עצתה לרדיולוגים. בפורמט אחד ה-AI פשוט ציינה את האבחנה המניחה על-פניו. בפורמט אחר היא ריכזה מספר אבחנות אפשריות, בדומה לרשימת בדיקה מנטלית של רופא. בפורמט השלישי היא הלכה צעד-אחר-צעד דרך נימוקיה, והציגה כיצד פרטים מן הסריקה וסיפור המטופל הובילו למסקנה שלה. הצוות רצה לדעת איזה מהסגנונות האלה תומך בצורה הטובה ביותר בשיקול דעת אנושי במקום להחליפו.

ניסוי גדול עם מקרים רדיולוגיים מהעולם האמיתי

על מנת לבדוק זאת, המחברים اجرו ניסוי אקראי עם 101 רדיולוגים פעילים בארצות הברית. כל רדיולוג בחן 20 מקרים אמיתיים של מטופלים שנבחרו מסדרת חינוך שפורסמה בכתב עת רפואי מוביל. כל מקרה כלל תיאור קליני קצר בתוספת תמונה או מספר תמונות CT או MRI, והרופאים נדרשו להקליד אבחנה חופשית, כפי שיעשו בחיי היומיום. לחלק מהרדיולוגים לא ניתנה כל עזרה של AI. אחרים קיבלו ייעוץ של AI באחד משלושת הפורמטים: אבחנה בודדת, רשימה מדורגת של חמש אבחנות אפשריות, או הסבר מפורט צעד-אחר-צעד. ה-AI שהשתמשו בה הייתה גרסה מולטימודלית של GPT-4 שיכולה להתמודד גם עם טקסט וגם עם תמונות. כל התפיקים שלה — כולל טעויות — הוצגו כפי שהם כדי לדמות שימוש בעולם האמיתי.

חשיבה צעד-אחר-צעד משפרת את הדיוק

הממצא המרכזי ברור: סגנון ההסבר שינה רבות. רדיולוגים שראו את סגנון "שרשרת-מחשבה" — הנימוק הצעד-אחר-צעד — היו מדויקים באופן בולט יותר מאלו שעבדו בלי AI וגם מדויקים יותר מאלו שראו רק אבחנה אחת או רשימת חלופות. בממוצע, תמיכה בסגנון שרשרת-מחשבה שיפרה את הדיוק האבחוני ביותר מ-12 נקודות אחוז על פני מצב ללא עזרת AI ובין 7 ל-10 נקודות על פני פורמטים אחרים של AI. השיפורים הללו עמדו גם לאחר בקרה על גורמים כמו שנות ניסיון, הכשרה תת-התמחותית וכמה זמן בילו הרופאים על כל מקרה, מה שמרמז שצורת הצגת המידע יכולה לשנות באופן משמעותי את ביצועי הרופאים.

לפעול על עצה טובה ולדחות עצה רעה

המחקר בדק גם כיצד הרופאים הגיבו כשה-AI צדק או טעו. עם רשימת האבחנות המבדילות, רדיולוגים נטו לפעול לפי ההצעה העליונה של ה-AI גם כאשר היא הייתה שגויה — דפוס של אמון יתר הידוע כהטיית אוטומציה. לעומת זאת, פורמט שרשרת-המחשבה עודד הסתמכות בררנית יותר. כאשר האבחנה של ה-AI הייתה נכונה, הרופאים נוטים מאוד להסכים איתה. אבל כאשר משהו בנימוקיה הצעד-אחר-צעד נראה שגוי, הם היו מוכנים יותר להעדיף תשובה שונה ולהתעלות על המלצת המערכת. במילים אחרות, נימוקים מפורטים סייעו לרופאים להעריך מתי להישען על המכונה ומתי לסמוך על המומחיות שלהם.

Figure 2
Figure 2.

תוצאות יציבות על פני מיומנויות והתמחויות שונות

יתרונות ההסברים הצעד-אחר-צעד נצפו במגוון רחב של מצבים. רדיולוגים בשלב מוקדם ושלב מתקדם של הקריירה נהנו שניהם מהשיפור, כמו גם אלה עם כישורי מחשב בסיסיים או מתקדמים. הדפוס התקיים עבור מקרים קלים וקשים וגם עבור רדיולוגים כלליים וכאלה העובדים בתחומים מיוחדים כגון נוירורדיולוגיה או הדמיה של הבטן. המחברים גם ביצעו בדיקות סטטיסטיות רבות — בבקרה על דיוק ה-AI עצמו, על אורך הפלטים ושונות בהנחות המודל — ומצאו כי עליונותם של הסברים בסגנון שרשרת-מחשבה הייתה יציבה למדי.

מה המשמעות עבור מטופלים וכלי AI עתידיים

עבור מטופלים, המסר הוא אופטימי בזהירות: AI יכול לסייע לרדיולוגים, אך האופן שבו הוא מתקשר את נימוקיו הוא קריטי. פשוט לרשום אפשרויות או לתת תשובה נשמעת בטוחה אינו מספיק ועלול אף לדחוף רופאים לכיוונים שגויים. בניסוי מבוקר זה, AI ש"חושב בקול" באופן ברור וצעד-אחר-צעד סייע לרופאים לזהות טוב יותר מתי המערכת צודקת ומתי היא טועה, מה שהוביל לפחות שגיאות אבחוניות בסך הכל. ככל שבתי חולים ימשיכו לשלב AI בזרימות עבודה קליניות, תכנון מערכות המדגישות שקיפות והסברים ממוקדי נימוק יכול לשחק תפקיד מרכזי בשיפור הביטחון והאמינות של אבחנות רפואיות.

ציטוט: Spitzer, P., Hendriks, D., Rudolph, J. et al. The effect of medical explanations from large language models on diagnostic accuracy in radiology. npj Digit. Med. 9, 333 (2026). https://doi.org/10.1038/s41746-026-02619-0

מילות מפתח: אבחון רדיולוגי, בינה מלאכותית רפואית, מודלים לשוניים גדולים, הסברי שרשרת-מחשבה, תמיכה בקבלת החלטות קליניות