Clear Sky Science · he

PsychiatryBench: מבחן רב‑משימתי ל‑LLMs בתחום הפסיכיאטריה

· חזרה לאינדקס

מדוע עבודה זו חשובה לבריאות הנפש ולבינה מלאכותית

בעיות בריאות הנפש משפיעות על מאות מיליוני אנשים ברחבי העולם, אך רבים אינם מקבלים טיפול איכותי ובזמן. במקביל, צ׳אטבוטים חזקים מבוססי מודלים גדולים של שפה (LLMs) נכנסים במהירות למשרדי רופאים, לאפליקציות טיפוליות ואף למנועי חיפוש שגרתיים. מאמר זה מציג את PsychiatryBench, שיטה חדשה לבחון עד כמה מערכות אלה באמת מבינות רפואה פסיכיאטרית. הוא שואל שאלה פשוטה אך דחופה: האם כלי ה‑AI של היום מסוגלים לחשוב על מקרים מורכבים בתחום בריאות הנפש בצורה בטוחה, אמינה ובהיקף הקרוב לסטנדרטים של מומחים?

מבחן חדש המבוסס על ידע קליני אמיתי

מרבית הניסיונות הקודמים להעריך בינה מלאכותית בבריאות הנפש הסתמכו על פוסטים ברשתות החברתיות, תמלילי ראיונות קטנים או אפילו שיחות שהומצאו על‑ידי מערכות AI אחרות. אלה רחוקים מההיסטוריות מטופלות ושאלות מבחן המנוסחות בקפידה ומשמשות להכשרת פסיכיאטרים. PsychiatryBench נוקט גישה שונה. המחברים בנוו סט של 5,188 שאלות שנבחרו אך ורק מתוך ספרי לימוד פסיכיאטריה מהימנים, ספרי מקרים ומדריכי מבחנים עצמי. הבנצ׳מרק מכסה אחת עשרה סוגי משימות, מהגדרת אבחנה ובחירת טיפול ועד תכנון טיפול ממושך, שאלות ידע בסיסיות ומעקב לאורך זמן של מקרה. המוקד הוא פסיכיאטריה למבוגרים ולקשישים במרפאות חוץ, שם על הרופאים לשקול תסמינים חופפים, תופעות לוואי רפואיות וניהול לטווח ארוך במקום רק חירומים דרמטיים.

Figure 1
Figure 1.

כיצד נבדקו דגמי ה‑AI

הצוות העריך חמש־עשרה LLMs מובילות, כולל מערכות כלל‑מטרתיות מחברות טכנולוגיה גדולות וכמה דגמים המותאמים במיוחד לרפואה. במשימות מובנות כמו שאלות רב‑ברירתיות נוהגו לציין ציונים בשיטה המקובלת. בתשובות פתוחות — כגון ״כיצד תנהלו מקרה זה?״ — השתמשו במודל שפה חזק נוסף כשופט ניטרלי שהשווה כל תשובה אל מול התייחסות מומחה בסולם דמיון 0–100. כך ניתן היה לבחון לא רק זיכרון עובדות אלא גם איכות ההיגיון וכמה ההיגיון הקליני של ה‑AI תואם לזה של פסיכיאטרים מנוסים. שיטות ניקוד מיוחדות שימשו לפורמטים מורכבים של מבחן, כמו פריטי התאמה מורחבים שבהם על רשימת אפשרויות אחת לחול נכון על מספר תיאורי מקרה.

מה מערכות של היום מסוגלות לעשות — והיכן הן נופלות

בכלל הבנצ׳מרק בלטה קבוצה מובילה של דגמים חוד החנית. מערכות כלל‑מטרתיות חדשות כגון GPT‑5 Medium ו‑Claude Sonnet 4.5 במצב ״חשיבה״ הגיעו לציונים ממוצעים בטווח אמצע ה‑80 והצטיינו במשימות דורשות כמו אבחון, תכנון טיפול ושאלות מעקב רב‑שלביות. הן הראו גם ביצועים יציבים יחסית על פני פורמטים משימתיים שונים, מה שמרמז על היגיון חזק ולא על למידה של טריקים צרה. לעומת זאת, דגמים קטנים או ישנים יותר נותרו מאחור, וחלק מהדגמים הממוקדים ברפואה הראו תנודות רחבות בין ציונים גבוהים במבחנים עובדתיים לביצועים חלשים בהיגיון קליני פתוח. אפילו המובילים התקשו במשימות הקשות ביותר: סיווג דק של הפרעות ספציפיות עם תסמינים חופפים ופריטי מבחן שדורשים בחירה מתוך אופציות רבות כמעט זהות.

פרדוקס הכל‑כללי לעומת המומחה בבינה רפואית

אחת המסקנות הבולטות היא שדגמים שאומנו באופן רחב על סוגים רבים של טקסט לעתים קרובות עלו על דגמים שאומנו במיוחד על ספרות ביומדית כשהיה מדובר בהיגיון פסיכיאטרי מורכב. דגמים רפואיים מומחים כמו MedGemma הצטיינו במשימות מוכרות־ידע כגון שאלות רב‑ברירתיות ותוויות הפרעה מפורטות, אך באופן כללי נפלו מאחור במשימות נרטיביות וגמישות שמחקות ביקור קליני אמיתי. פרדוקס ה״כל‑כללי–מומחה״ הזה מרמז שחשיפה פשוטה לטקסטים רפואיים אינה מספיקה; היכולת לשלב הקשר, לאחוז באי‑וודאות ולשנות השערות — כפי שעושים דגמים כלליים חזקים — קריטית לפסיכיאטריה. יחד עם זאת, המחקר מראה שהוספת שלבי ״חשיבה״ נוספים מסייעת לחלק מהארכיטקטורות אך לא לאחרות, ורומזת שדילול מועיל בבינה מלאכותית צריך להיות מעוצב בקפידה ולא רק מוכתב.

Figure 2
Figure 2.

מגבלות, אמצעי זהירות ומה הלאה

למרות ציונים מעודדים, המחברים מדגישים שמערכות אלה אינן מוכנות לקבל החלטות קליניות ללא פיקוח. הבנצ׳מרק נשען על מקרים מלוטשים מתוך ספרי לימוד, לא על רשומות אמיתיות מבולבלות, משברים או הצגות תרבותיות מגוונות. הוא אינו בוחן האם צ׳אטבוט עלול לטפל בצורה מוטעית באדם מתאבד פעיל, לחזק חומרות אשלייתיות או להגיב באופן שעלול לערער אמון. גם הניקוד עצמו מסתמך על שופט AI נוסף, מה שמכניס הטיות משלו. כתוצאה מכך, יש לראות ב‑PsychiatryBench כמבחן מעבדה יסודי, לא כתעודת ביטחון. המחברים טוענים שבינתיים LLMs מתאימים יותר לתמיכה בחינוך, תיעוד וסיעור מוחות ראשוני תחת השגחה אנושית זהירה.

מה המשמעות לחולים ולמטפלים

לקוראים שאינם מקצוענים, המסר הוא גם מלא תקווה וגם זהיר. מודלי השפה המודרניים מתחילים לחקות חלקים מההיגיון הפסיכיאטרי של מומחים, במיוחד בהקשרים מובנים ודמויי‑ספר לימוד. הם כבר יכולים לעזור לסטודנטים להתאמן, לסייע לרופאים בתמצותים ולהעלות אפשרויות מונחות קווים מנחים. אך הם גם מגלים נקודות תורפה צפויות באבחון עדין, סיווג עם תוויות מרובות ובטיפול במקרים דו־ערכיים — בדיוק באזורים שבהם טעויות עלולות להזיק קשה. PsychiatryBench מאיר על חוזקות וחולשות אלה, ומציע דרך שקופה לעקוב אחרי ההתקדמות ולעצב מערכות בטוחות יותר. במלים פשוטות, המחקר מציע שבינה מלאכותית יכולה להפוך לעוזר שימושי בתחום בריאות הנפש, אך רק אם יכולותיה נמדדות ביושרה ותפקידה יישאר בידיהם של אנשי מקצוע מיומנים.

ציטוט: Fouda, A.E., Hassan, A.A., Hanafy, R.J. et al. PsychiatryBench: a multi-task benchmark for LLMs in psychiatry. npj Digit. Med. 9, 320 (2026). https://doi.org/10.1038/s41746-026-02582-w

מילות מפתח: מדד פסיכיאטריה, מודלים גדולים של שפה, בינה מלאכותית לבריאות הנפש, היגיון קליני, מאגרי נתונים להערכה רפואית