Clear Sky Science · he
הערכת מודלים לשוניים גדולים לייצור התרשמות אבחנתית מממצאי MRI מוח: מדד מולטי‑מרכזי ולימוד קוראים
מדוע דיווחי MRI חכמים יותר חשובים למטופלים
כאשר עוברים בדיקת מוח, על הרדיולוג לתרגם אלפי גווני אפור להצהרה ברורה לגבי מה לא תקין — או שהכל נראה תקין. ה"התרשמות" הסופית הזו מכוונת החלטות קריטיות בטיפול בשבץ, גידולים מוחיים, זיהומים ועוד. אך קריאת בדיקות MRI של המוח מורכבת וגוזלת זמן, ורופאים עמוסים עלולים לטעות, במיוחד בבתי חולים עמוסים. במחקר זה נבדק האם מודלים לשוניים מתקדמים של בינה מלאכותית יכולים לסייע באופן אמין לרדיולוגים בהפיכת ממצאים כתובים להתרשמות אבחנתית מדויקת, מהירה ועקבית.
להפוך תיאורי סריקה גולמיים לתשובות ברורות
בדיקות MRI של המוח מייצרות סדרת תמונות שאותן הרדיולוגים מתארים בסעיף "ממצאים", וציינים למשל היכן ממוקמת נגע, עד כמה היא בהירה והאם יש בצקת. האתגר האמיתי הוא לשלב את כל הפרטים הללו להתרשמות אבחנתית, כגון "אוטם חריף" או "אבצס מוחי". החוקרים אספו 4,293 דוחות MRI מוח משלושה בתי חולים בסין, המכסים 16 קטגוריות אבחנתיות שמכסות יותר מ‑95% מהמקרים השגרתיים. לאחר מכן הם בדקו 10 מודלים לשוניים גדולים שונים — מערכות AI טקסטואליות מתקדמות — כדי לראות עד כמה כל אחד יכול להמיר את הממצאים הכתובים לאבחנות הנכונות.

מודלים גדולים ומאומנים היטב התבררו כמובילים
הצוות השווה בין מודלים בטווח של כ‑8 מיליארד עד 671 מיליארד פרמטרים פנימיים, בקירוב כמו המעבר מידע של סטודנט לרפואה לידע של צוות מומחים. המודל הגדול ביותר, בשם DeepSeek‑R1, סיפק באופן עקבי את הביצועים הטובים ביותר כשהוא הוזן גם בגרסאות מובנות של הממצאים וגם במידע קליני מרכזי כגון גיל המטופל, תסמינים או היסטוריית חבלה. בתנאים אלה DeepSeek‑R1 זיהה נכון נוכחות או היעדר מצבים מוחיים ספציפיים עם רגישות וספציפיות גבוהות והשיג דיוק ברמת המטופל של מעל 87%. מודלים קטנים יותר, במיוחד מתחת לכ‑10 מיליארד פרמטרים, התקשו מאוד ולעיתים זכו רק בכ‑30% מהמקרים — הרבה מתחת למה שיהיה מקובל בעבודה קלינית אמיתית.
מדוע מבנה והקשר משפרים את ה‑AI
החוקרים לא הזינו למודלים רק טקסט חופשי. הם השתמשו גם במערכת AI נוספת כדי לארגן מחדש את הדוחות לאלמנטים מובנים ומוקפדים: היכן כל נגע ממוקם, כמה יש וכיצד הם מופיעים בסדרות MRI שונות. הוספת המבנה הזה, בשילוב רישום קליני קצר, הביאה לשיפור ניכר. עבור DeepSeek‑R1, המעבר מממצאים טקסטואליים חופשים לממצאים מובנים בתוספת הקשר קליני הגביר את הרגישות, את הדיוק הכולל ואת המדדים הסיכומיים. במילים פשוטות, ה‑AI עבד הרבה טוב יותר כשהוצגה בפניו מידע נקי ומאורגן יותר וקצת רקע על המטופל — משקף את האופן שבו רדיולוגים אנושיים עובדים בצורה מיטבית כאשר הדוחות מסודרים והשאלה הקלינית ברורה.

מניחת יחידה לרשימת עדיפויות ממוקצבת
במציאות, רדיולוגים לעיתים מציעים יותר מאפשרות אחת במקרים מורכבים. המחקר בדק שני סגנונות בקשה: לבקש מה‑AI רק אבחנה אחת, או לבקש את שלוש האפשרויות המובילות שלו, כל אחת עם הסבר קצר. מתן שלוש אבחנות מדורגות שיפר באופן דרמטי את הביצועים. בגישת "אבחנה דיפרנציאלית" זו, התשובה הנכונה הופיעה באחד משלושת ההצעות המובילות ביותר מ‑97% מהמקרים. זה היה מועיל במיוחד במקרים מורכבים כמו גידולים, דימומים או מחלות דלקתיות, שבהם ניחוש יחיד עלול להטעות, בעוד שרשימה קצרה ומנומקת יכולה להנחות בדיקות וטיפול נוספים.
השפעה בעולם האמיתי על רדיולוגים עמוסים
כדי לבדוק האם השיפורים הללו חשובים בפרקטיקה, המחברים ערכו מחקר קוראים עם שישה רדיולוגים — שלושה זוטרים ושלושה בכירים — שפירשו 500 דוחות MRI של המוח עם ובלי עזרת DeepSeek‑R1. בעזרת ה‑AI, הדיוק האבחנתי הכולל זינק מכ‑75% בערך של המקרים ליותר מ‑90%, ומדד איכות מרכזי של דיוק וזכירה השתפר אף הוא משמעותית. זמן הקריאה ירד גם כן, מכ‑דקה לערך למטה מדקה, מה שיכול להתקזז לעשרות שעות שמורות לכל רדיולוג בשנה. היתרונות הגדולים ביותר נראו אצל רדיולוגים זוטרים, שביצועיהם התקרבו לאלו של מומחים מנוסים, אם כי המחקר גם הדגיש שיש להישאר זהירים ולא להסתמך בעיניים עצומות על ה‑AI, במיוחד במצבים עדינים מאוד כמו סוגים מסוימים של דימומים מוחיים.
מה המשמעות לדוחות סריקת מוח בעתיד
למטופלים, המסקנה המרכזית היא שמערכות AI מבוססות שפה חזקות יכולות כבר לסייע לרדיולוגים להפוך תיאורי MRI מורכבים להתרשמויות אבחנתיות ברורות ומדויקות יותר, במיוחד כאשר מזינים להן מידע מובנה היטב ופרטים קליניים מרכזיים. כלים אלה אינם תחליף למומחיות אנושית אך יכולים לפעול כ"עיניים שניות" זהירות, להציע הצעות מנומקות ולחסוך זמן. אם יאומתו באופן רחב יותר וישולבו בצורה בטוחה במערכות בתי חולים, תמיכה כזו של AI עשויה להפוך דוחות סריקת מוח למהירים יותר, אמינים ועקביים יותר — ובסופו של דבר לשפר את הטיפול באנשים עם שבץ, גידולים, זיהומים ומצבים מוחיים נוספים.
ציטוט: Wang, ML., Zhang, RP., Wu, WJ. et al. Evaluation of large language models for diagnostic impression generation from brain MRI report findings: a multicenter benchmark and reader study. npj Digit. Med. 9, 187 (2026). https://doi.org/10.1038/s41746-026-02380-4
מילות מפתח: אבחון MRI מוח, בינה מלאכותית ברדיולוגיה, מודלים לשוניים גדולים, תמיכה בהחלטות קליניות, DeepSeek-R1