Clear Sky Science · he

הערכת מודלי שפה גדולים לניתוח אבחוני מתוך תיאורים קליניים בלתי-מובנים באפילפסיה

· חזרה לאינדקס

מדוע זה משנה למטופלים ולרופאים

כאשר אדם חווה התקף, המראה והתחושה שלו יכולים להעניק רמזים חיוניים לגבי מה שקורה בתוך המוח. רופאים משתמשים בתיאורים אלה כדי להחליט היכן במוח מתחילים ההתקפים ואילו טיפולים, כולל ניתוח, עשויים לעזור. המחקר הזה שואל האם מודלי שפה גדולים, אותו סוג של בינה מלאכותית שעומד מאחורי צ׳אט-בוטים, יכולים לפרש באמינות תיאורי התקפים מהעולם האמיתי ולתמוך בסוג זה של חשיבה אבחנתית.

Figure 1. כלי בינה מלאכותית מפרשים תיאורי התקפים כדי להציע היכן מתחילים ההתקפים במוח.
Figure 1. כלי בינה מלאכותית מפרשים תיאורי התקפים כדי להציע היכן מתחילים ההתקפים במוח.

הפיכת סיפורי התקפים לרמזים מוחיים

החוקרים מתמקדים באפילפסיה, מצב שבו פרצי פעילות מוחית חריגים קצרים גורמים להתקפים. בטיפול היומיומי הקלינאים מקשיבים בקפידה למטופלים ולעדים, ומתעדים מאפיינים כמו תנועות לעיסה, תחושות מוזרות, או מתיחות אלימה של הגפיים. פרטים אלה לעיתים קרובות מצביעים על אזורים מוחיים ספציפיים, כמו אונות המקדמיות או הרקתיות. הצוות בנה על מאגר ציבורי גדול שבו יותר מ-1200 תיאורי התקפים כבר קושרו לשבעה אזורי מוח רחבים בהתבסס על תוצאות ניתוח שהשאירו את המטופלים חופשיים מהתקפים — סימן חזק שמקור ההתקף האמיתי הוסר.

בחינת מספר מערכות AI

הוערכו שמונה מודלי שפה שונים, כולל מערכות כלליות נפוצות ושני מודלים המותאמים על טקסטים רפואיים. כל מודל קיבל תיאור התקף והיה עליו להוציא את ההסתברות שההתקף התחיל בכל אחד משבעת אזורי המוח. החוקרים בחנו לא רק כמה פעמים הבחירה המובילה הייתה נכונה, אלא גם עד כמה המודלים היו בטוחים, עד כמה אותה ביטחון התאימו למציאות, וכמה הגיוניות היו ההסברים הכתובים שלהם. הם השוו את התוצאות עם קו בסיס פשוט שתמיד בחר באזור המוח הנפוץ ביותר ועם שני מומחי אפילפסיה אנושיים שדרגו תת-קבוצה של מקרים.

Figure 2. סגנונות הנחיה שונים מובילים את ה-AI מתיאורי התקפים מבולגנים לאזור מוח מודגש עם רמזים לרמת הביטחון.
Figure 2. סגנונות הנחיה שונים מובילים את ה-AI מתיאורי התקפים מבולגנים לאזור מוח מודגש עם רמזים לרמת הביטחון.

כיצד ניסוח ההנחיה מעצב את התנהגות ה-AI

האופן שבו המשימה נוסחה עבור המודלים השפיע באופן משמעותי. כאשר ניתן רק הוראות בסיסיות, רוב המערכות עבדו רק במעט טוב יותר מההגרלה. הביצועים השתפרו כשהמודלים הוצגו עם מספר דוגמאות, התבקשו לחשוב שלב אחרי שלב, או קיבלו דוגמאות ניתוח קליני שכתבו מומחים לחיקוי. השיפורים החזקים ביותר נרשמו בהנחיות שעודדו הסקה מפורטת ובשילוב מספר תשובות עצמאיות להשגת החלטה יציבה יותר. תחת הוראות עשירות אלה, המערכות הטובות ביותר התקרבו לדיוק של קלינאים אנושיים במשימה הספציפית הזו, והן גם הפכו ליותר עקביות ומכויילות בביטחון שלהן.

חוזקות, נקודות עיוורון והבדיקה האנושית

בדיקה מעמיקה חשפה הסתייגויות חשובות. מומחים קליניים בחנו את ההסקה שהפיקו שני המודלים הטובים ביותר. אחד מהם, GPT-4, הפגין לעתים קרובות הבנה מוצקה של תסמינים, שימוש מדויק בידע אפילפטי ולוגיקה קוהרנטית. הוא גם נטה לצטט מאמרים מדעיים אמיתיים בצורה נכונה. מבצע חזק נוסף, Mixtral-8×7B, לעיתים הגיע לתשובה הנכונה מסיבות שגויות — קרא לא נכון פרטי תסמינים או המציא עובדות ותמיכות ומקורות. המחקר גם הראה שהביצועים תלויים באורך תיאור ההתקף, בתפקיד הקליני שהמודל הוצג כמי שמדמה ובשפה שבה השתמשו. תיאורים קצרים מאוד או מאוד מפורטים עבדו הכי טוב, התחזות למומחה שיפרה תוצאות, ושימוש בהנחיות בשפה שאינה אנגלית יכול להוריד את הדיוק.

מה המשמעות לטיפול עתידי

המחברים מסכמים שמודלי שפה גדולים יכולים, בהגדרה מבוקרת, להפוך סיפורי התקפים בלתי-מובנים לאומדנים שימושיים לגבי היכן מתחילים ההתקפים במוח. עם ניסוח הנחיות בקפידה, הביצועים שלהם יכולים להתקרב לאלו של קלינאים מנוסים, לפחות במשימה הצרה של מיפוי סימני התקף לאזורים מוחיים רחבים. יחד עם זאת, המודלים יכולים להישמע משכנעים גם כשהם נשענים על הסקות שגויות או מקורות מומצאים. תערובת של הבטחה וסיכון זו אומרת שמערכות כאלה עשויות יום אחד לסייע במיון מקרים או לתמוך בחשיבה אבחנתית ראשונית, אך יש לאמתן ביסודיות, לפקח עליהן בקפדנות ולהשתמש בהן לצד המומחיות האנושית — לא במקומה.

ציטוט: Dani, M., Prakash, M.J., Rosa, F. et al. Evaluating large language models for diagnostic reasoning from unstructured clinical narratives in epilepsy. Commun Med 6, 303 (2026). https://doi.org/10.1038/s43856-026-01653-z

מילות מפתח: אפילפסיה, סמיולוגיית התקף, מודלי שפה גדולים, הסקה אבחנתית, הערכת AI קליני