Clear Sky Science · he
ביצועי מדידה שיטתית מראים כי מודלי שפה גדולים עדיין לא הגיעו לדיוק האבחון של כלי תמיכה בהחלטות במחלות נדירות המסורתיים
מדוע זה חשוב למטופלים ולרופאים
כשמישהו סובל ממחלה נדירה, קבלת האבחנה הנכונה עלולה להימשך שנים של אי־ודאות, בדיקות חוזרות וביקורים אצל מומחים רבים. במקביל, מערכות בינה מלאכותית חדשות וחזקות המכונות מודלי שפה גדולים מתקבלות כמשנות משחק פוטנציאליות עבור הרפואה. המחקר הזה שואל שאלה פשוטה אך חשובה: האם ה־chatbots החדשים האלה באמת טובים יותר בזיהוי מחלות גנטיות נדירות מהכלים המיוחדים שרופאים כבר משתמשים בהם, או שעדיין יש להם דרך לעבור?
מחלות נדירות והדרך הארוכה לתשובות
למרות שכל מחלה נדירה משפיעה על מספר אנשים מצומצם יחסית, קיימות יותר מ־10,000 מצבים כאלה, וביחד הן נוגעות עד לאחד מכל שנים‑עשר פרטים. רבים מהחולים הללו עוברים "אודיסיאה אבחנתית" שנמשכת חמש עד שבע שנים לפני שמצליחים לשים שם על הבעיה. עבור מצבים גנטיים, שלב מרכזי הוא להתאים את שילוב התסמינים, תוצאות המעבדה וממצאי הסריקות של אדם לתבניות הידועות של מחלות מסוימות. תוכניות מחשב מבוססות כבר עוזרות בכך על‑ידי שימוש באוצר מילים מוסדר של תכונות רפואיות כדי לחפש בין אלפי מצבים אפשריים.
העמדת ה‑chatbots מול הכלים המסורתיים למבחן
החוקרים אספו מאגר גדול של יותר מחמשת אלפים מקרים אמיתיים אך מזוהים באופן אנונימי של חולים עם מחלות גנטיות או כרומוזומליות מאומתות. כל מקרה מומשק בקפידה לפורמט מובנה שקודד את גיל האדם, מינו, תסמינים וממצאי בדיקות באמצעות מילון רפואי משותף. מהרשומות המובנות האלה, הקבוצה ייצרה אוטומטית סיפורי מקרים קצרים שניתן היה להגיש לשבעה מודלי שפה שונים, כולל מערכות כלל‑מטרתיות ומודלים שאומנו במיוחד על טקסט רפואי. במקביל, הזינו את אותם נתונים מובנים ל‑Exomiser, תוכנת תמיכה בהחלטות למחלות נדירות בשימוש נרחב, אך ללא מתן מידע כרומו‑גני/רצף גנטי כדי שההשוואה תהיה הוגנת.

ציון מי מצא את המחלה הנכונה
השוואת התשובות מה‑chatbots ומהתוכנה המסורתית קשה יותר ממה שנשמע, כי מודלי שפה מגיבים בטקסט חופשי שעשוי להשתמש בשמות מחלה שונים או ברמות פירוט שונות. כדי לא להסתמך על שיפוט אנושי האם תשובה הייתה "מספיק קרובה", המערכת מיפתה כל אבחנה מוצעת אל קטלוג מחלות מאוחד. ההצעה של מודל נספרה כנכונה אם התאימה למחלה המדויקת, לשם שקול או לגרסה מעט יותר כללית שהכילה באופן ברור את המצב האמיתי. עבור כל מקרה מדדו אז באיזה מיקום הופיעה התשובה הנכונה ברשימת הדירוג של המודל — מקום ראשון, בין שלושת המקומות הראשונים או במקום כלשהו בעשירייה הראשונה.
מה הראתה ההשוואה פנים אל פנים
على פני כל 5,213 המקרים, Exomiser השיגה תוצאות ברורות שהצטינו על פני כל מודל שפה שנבדק. על בסיס תסמינים בלבד, Exomiser מיקמה את האבחנה הנכונה במקום הראשון בכמעט אחד מתוך שלושה מקרים ובתוך עשרת הראשונים ביותר ממחצית המקרים. מודל השפה הטוב ביותר, מערכת ממוקדת ניתוח/הסקה, הגיעה למקום הראשון בקצת מתחת לרבע מהמקרים ולעשירייה הראשונה בקצת יותר משליש. מודלים אחרים הממוקדים ברפואה ביצעו באופן ניכר פחות טוב, ומודל רפואי גדול אחד כמעט מעולם לא הציע את המחלה הנכונה. דפוסים אלה נשמרו גם כאשר החוקרים בחנו בנפרד הפרעות לבביות, מוחיות או מערכת חיסונית, וכאשר חילקו את המקרים לפי רשימת פירוט התסמינים.

מה זה אומר עבור עתיד ה‑AI באבחון
מחקר זה מראה שלמרות היכולת המרשימה של מודלי השפה עם שפה, מודלים גדולים של היום אינם מהימנים עדיין ככלים מיוחדים לאבחון מחלות גנטיות נדירות על‑פי תיאורי תסמינים בלבד. הם יכולים להיות שימושיים כעוזרים — למשל, בעזרה לרופאים להעלות אפשרויות או להסביר מצבים בשפה ברורה — אך לא כדאי להחליפם בתוכנות מבוססות ומוכחות כשמדובר בחיים ובתשובות שעוכבו זמן רב. החוקרים טוענים שהנתיב המבטיח ביותר הוא לשלב מודלי שפה בצינורות אבחון מתוכננים בקפידה, שבהם הם עובדים לצד — ולא במקום — כלי ביואינפורמטיקה מהימנים.
ציטוט: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5
מילות מפתח: מחלות נדירות, אבחנה רפואית, מודלי שפה גדולים, תמיכה בהחלטות קליניות, הפרעות גנטיות