Clear Sky Science · he

דיוק אבחוני של מודלים גדולים רב‑מודאליים בזיהוי הפרעות אפילפטיות מול פרכוסים פונקציונליים בסרטונים שצולמו בסמארטפון

· חזרה לאינדקס

מדוע סרטון מהטלפון עשוי לסייע לאבחון פרכוס

כשמישהו קורס פתאום או מתחיל לרעוד, הצופים סביבו נוהגים כיום לעשות דבר דומה: לשלוף סמארטפון ולהקליט. סרטונים אלה יכולים לספק רמזים שיכולים להציל חיים ולעזור לרופאים להכריע האם האירוע היה פרכוס אפילפטי או אפיזודה דומה הנקראת פרכוס פונקציונלי. עם זאת, מומחי נוירולוגיה הם בספק, והמתנה שמיועדת למומחה שיעיין בסרטונים עלולה לעכב טיפול. מחקר זה בודק האם בינה מלאכותית מודרנית, ובפרט מודלים שפתיים גדולים רב‑מודאליים, יכולה לצפות בסרטוני טלפון יומיומיים אלה ולהבחין בעצמה בין הסוגים.

Figure 1
Figure 1.

שני סוגי מצבי חירום שנראים דומים

פרכוסים אפילפטיים ופונקציונליים עלולים להיראות דומים לעין שאינה מומחית, אך להם סיבות וטיפולים שונים מאוד. פרכוסים אפילפטיים נגרמים מפעילות חשמלית חריגה במוח וטופלים בדרך כלל בתרופות או בניתוח. פרכוסים פונקציונליים, לעומת זאת, אינם מונעים מתפרצויות חשמליות מסוג זה; הם אירועים אמיתיים ומעיקים שמקורם באינטראקציות מורכבות בין מוח לנפש, ודורשים טיפול שונה, לעתים קרובות כולל תמיכה פסיכולוגית. מאחר שהאירועים קצרים ומפחידים, משפחות מתקשות לתאר אותם במדויק. הקלטות וידאו שנערכו ברגע יכולות לשקף תמונה נאמנה יותר, אך בחינתן עדיין תלויה בזמינות מומחי אפילפסיה מיומנים.

בחינת בינה כללית‑תכליתית

החוקרים במרכז אפילפסיה גדול אספו 24 סרטוני סמארטפון מ‑15 מבוגרים שאובחנו בקפידה באמצעות ניטור וידאו‑EEG בבית החולים, שהוא אבני הדרך (gold standard) שמקליט גם גלי מוח וגם התנהגות. תשע עשרה קליפים הציגו פרכוסים אפילפטיים וחמישה הציגו פרכוסים פונקציונליים. הם הזינו כל וידאו, ללא מידע רפואי רקע, לארבע גרסאות של משפחה של מערכות בינה כלל‑תכליתיות (Gemini 1.5 Pro, 2.0 Flash, 2.5 Flash ו‑2.5 Pro). כל מודל נשאל שאלה פשוטה: האם האירוע אפילפטי או פונקציונלי? הבינה המלאכותית נדרשה גם לציין עד כמה היא בטוחה בתשובתה בסולם 1–10. הצוות השווה את התשובות של הבינה לאבחנות בית החולים וחישב מדדים סטנדרטיים כגון דיוק, רגישות (כמה פעמים זוהו נכון פרכוסים אפילפטיים) וספציפיות (כמה פעמים נדחו כראוי פרכוסים פונקציונליים).

מה שהבינה עשתה נכון — ומה לא

גרסאות חדשות יותר של המערכת עשו עבודה טובה יותר מהגרסאות הוותיקות, אבל אף אחת מהן לא הייתה קרובה להחליף מומחה. דיוק אבחוני כולל עלה מכ‑כ‑ת של כשליש נכונות במודל הראשוני לכמעט מחצית פלוס נכונות בשתי הגרסאות החדישות ביותר. המערכת האחרונה, Gemini 2.5 Pro, הייתה המאוזנת ביותר: היא זיהתה קצת יותר ממחצית מהפרכוסים האפילפטיים ודחתה נכון רוב—but לא את כל—הפרכוסים הפונקציונליים. גרסאות מוקדמות היו זהירות באופן קיצוני: כמעט ולא טענו שבאירוע מדובר בפרכוס אפילפטי, ולכן פספסו את רוב הפרכוסים האפילפטיים. חשוב להדגיש שאסטרטגיה נאיבית של פשוט לכנות כל אירוע "אפילפטי" הייתה מניבה דיוק גולמי גבוה יותר מכל מודל—אולם היא הייתה נכשלה לחלוטין בהבחנה בין שתי המחלות, מה שממחיש עד כמה המשימה מורכבת.

מדוע פרטי הווידאו כל כך משמעותיים

המחקר הראה גם כי איכות והקומפוזיציה של הווידאו השפיעו באופן משמעותי על ביצועי הבינה. כשההקלטות היו ברורות, מואירות היטב וממוקדות בחלק העליון של הגוף או בפנים, הגרסאות החדשות היו נכונות בכ‑80–90 אחוזים מתוך תת‑קבוצה זו. כאשר הגוף כולו הוצג מרחוק, או התאורה הייתה חלשה, הדיוק צנח באופן חד, לעתים כמעט לאפס. סוג הפרכוס גם השפיע: גרסאות בינה מוקדמות נכשלו למעשה באירועים עדינים יותר שאינם רועדים, בעוד שגרסאות מאוחרות היו מאוזנות יותר בין אירועי רעד ברורים לאירועים הפחות דרמטיים. עם זאת, בכל המודלים, ציוני הביטחון נשארו גבוהים גם כאשר התשובה הייתה שגויה, כלומר הבינה הייתה לעתים "בביטחון שגויה" — תכונה מדאיגה אם קלינאים או מטופלים יתבססו על שיפוטים אלה.

Figure 2
Figure 2.

מסקנות עבור מטופלים ורופאים

כרגע, המסר ברור: בינה כלל‑תכליתית יכולה לזהות דפוסים בסרטוני פרכוסים ומשתפרת באיטיות, אך היא רחוקה מלהיות אמינה ככלי אבחוני עצמאי. המערכות עדיין מפספסות פרכוסים אפילפטיים רבים, מתקשות באירועים עדינים, ולא יודעות עדיין מתי הן עשויות לטעות. המחברים טוענים שגרסאות עתידיות יידרשו לאימון על אוספים גדולים בהרבה של סרטונים רפואיים באיכות גבוהה עם תיוג מומחים, שיטות טובות יותר להבעת אי‑וודאות ושילוב הדוק יותר עם היסטוריות המטופלים והקלטות גלי מוח. במקום להחליף נוירולוגים, כלי אלה קרוב לוודאי יהיו חלק מגישה רחבה יותר שמתרכזת באדם, שבה סמארטפונים, מומחים ובינה מתוכננת בקפידה עובדים יחד כדי להאיץ ולחדד את אבחון הפרכוסים.

ציטוט: Patel, A., Vallamchetla, S.K., Safa, A. et al. Diagnostic accuracy of multimodal large language models in differentiating epileptic from functional seizures in smartphone recorded videos. Sci Rep 16, 11719 (2026). https://doi.org/10.1038/s41598-026-46333-z

מילות מפתח: אפילפסיה, סרטוני פרכוסים, בינה מלאכותית, מודלים שפתיים גדולים, אבחנה רפואית