Clear Sky Science · he
מודלים גדולים רב־מודליים מאתגרים את אתגר התמונות של NEJM
מדוע זה חשוב למטופלים ולרופאים
קבלת האבחנה הנכונה בזמן הנכון יכולה להיות ההבדל בין טיפול מהיר לשנים של סבל. עם זאת, רופאים—even highly trained ones—עדיין מפספסים או מאחרים אבחנות, במיוחד במחלות נדירות או לא שגרתיות. המחקר הזה שואל שאלה בולטת: כאשר מזינים תמונות רפואיות ופרטים קליניים למערכות הבינה המלאכותית המתקדמות של היום, האם הן מסוגלות לאבחן מקרים מורכבים טוב יותר ממספר רב של רופאים אמיתיים — ואם כן, מה משמעות הדבר לטיפול הרפואי בעתיד?

תעלומה ענקית שנבנתה ממקרים מהעולם האמיתי
החוקרים פנו לתכונה מתמשכת של New England Journal of Medicine שנקראת "Image Challenge". כל אתגר מציג תמונה רפואית של מטופל אמיתי — כגון צילום של עור, צילום רנטגן, MRI או פרפראט מיקרוסקופי — יחד עם סיפור קליני קצר וחמש אפשרויות אבחנה. מאז 2009 נצברו יותר מ־16 מיליון תגובות מיותר מ־60,000 רופאים לכל מקרה, ויצרו רישום גלובלי ייחודי של ביצועי רופאים על אותן שאלות קשות. מהארכיון הזה בחרה הקבוצה 272 מקרים המכסים כל קבוצות הגיל, שני המינים וטווח רחב של מצבים, החל מזיהומים והפרעות חיסוניות ועד סרטן, מחלות תורשתיות ופגיעות.
להציב את ה‑AI והרופאים על אותו מגרש
המחקר בחן שלושה ממודלים הגדולים הרב־מודליים המובילים — מערכות שיכולות להסתכל על תמונות ולקרוא טקסט יחד: GPT‑4o, Claude 3.7 ודובאו. לכל מקרה המודלים ראו תחילה רק את התמונה והיו צריכים לבחור אחת מחמש האפשרויות ולהסביר את בחירתם. לאחר מכן הם קיבלו את התמונה יחד עם התיאור הקליני וענו שוב. כדי לשמור על מבחן הוגן, הופעלו המודלים בהגדרות סטנדרטיות, עם חיפוש אינטרנט ותכונות חשיבה נוספות כבויות, וכל מקרה הופעל בסשן חדש כדי להימנע מזיהום מתשובות קודמות. שני רופאים דרגו את תגובות ה‑AI מול הפתרונות הרשמיים של New England Journal, תוך התמקדות האם הבחירה הסופית תואמת את האבחנה האמיתית, בדיוק כפי שהאקולוגיה האנושית נמדדת.
ביצועים על־אנושיים במגוון מחלות ותמונות
כאשר סופקו גם תמונות וגם טקסט, שלוש מערכות ה‑AI באופן ברור עמדו על יתרון לעומת מאגר הרופאים העולמי. Claude 3.7 ו‑GPT‑4o הגיעו כל אחד לכ־89–90% דיוק, בהשוואה ל־46.7% עבור ההצבעה הרובית של המשיבים האנושיים — פער של יותר מ־40 נקודות אחוז. אפילו במקרים הקשים ביותר, שבהם פחות מ‑40% מהרופאים היו נכונים, Claude 3.7 עדיין הגיע ל־86.5% אבחנות נכונות. היתרון נשמר ברוב סוגי המחלות ובפורמטים השונים של התמונות: המודלים היו חזקים במיוחד במצבים הקשורים לתרופות ולמחלות גנטיות, וטיפלו לא רק בצילומים ובצילום רנטגן אלא גם בסטים אנדוסקופיים, פתולוגיים ומשולבים. הביצועים היו חזקים באותה מידה עבור גברים ונשים, ובקבוצות פגיעות מאוד, כמו תינוקות מתחת לשנה, המודלים היו מדויקים בהרבה מהרופאים.

מוחות שונים, לא רק מהירים יותר
אולי הממצא המפתיע ביותר היה כמה פעמים המודלים הצליחו כאשר הרופאים לא הצליחו. בכמעט מחצית מהמקרים, Claude 3.7 היה נכון בעוד שרוב הרופאים טעו, וההיפך — רופאים נכונים והמודל טועה — היה נדיר. בסך הכל, עבור Claude 3.7 היו כ־חמש עשרה מקרים של "יתרון המודל" על כל מקרה אחד של "יתרון הרופא". עם זאת, ההסכמה בין בני אדם ל‑AI לגבי איזו תשובה לבחור הייתה נמוכה, סימן לכך שהמערכות אינן פשוט מהדהדות דפוסים אנושיים אלא מגיעות לאבחנות נכונות בדרך שונה. הוספת הטקסט הקליני שיפרה בדרך כלל במידה ניכרת, והגבירה את דיוק ה‑AI ב־28–42 נקודות אחוז לעומת תמונות בלבד. יחד עם זאת, בשיעור קטן מאוד של המקרים, פרטים נוספים דחפו מודלים מתשובה נכונה המבוססת על תמונה לתשובה שגויה, מה שמרמז על סוגים חדשים של הטיות ואופן כישלון שיצריכו מחקר זהיר.
מה זה עשוי לרמז על הטיפול בעתיד
המחברים מסכמים שמודלים גדולים רב־מודליים הגיעו לרמה "על־אנושית" במבחן האבחוני התובעני הזה: הם מדויקים יותר מממוצע ההמון של רופאים ושומרים על יתרונם גם כאשר מקרים מביכים את רוב הרופאים. יחד עם זאת, חפיפה נמוכה עם בחירות האנושיות מצביעה על כך שהם חושבים בצורה משלימה במקום לפעול כהעתק דיגיטלי של הקלינאים. אם ישתמשו בהם בחוכמה, מערכות אלה יכולות לשמש כקוראים שניים חזקים, להציע דעות בלתי תלויות על מקרים קשים או נדירים ולעזור ללכוד בעיות שרופאים אנושיים עלולים לפספס. הן אינן מוכנות להחליף שיקול קליני, אך ייתכן שהן תהיינה בקרוב שותפות יקרות ערך ליד המיטה ובחדר הקריאה, בודקות את עבודתנו בשקט ומרחיבות את רשת הביטחון עבור המטופלים.
ציטוט: Sheng, C., Shen, S., Wang, L. et al. Multimodal large language models challenge NEJM image challenge. Sci Rep 16, 8132 (2026). https://doi.org/10.1038/s41598-026-39201-3
מילות מפתח: אבחנה רפואית, בינה מלאכותית, הדמיה רפואית, מחלות נדירות, תמיכה בהחלטות קליניות