Clear Sky Science · he
ביצועים עצמאיים ומשותפים של מודלים גדולים של שפה ואנשי מקצוע בתחום הבריאות באבחון ובהחלטת טריאז׳
למה זה חשוב בביקור הבא אצל הרופא
כשאתה מקליד את התסמינים שלך בצ׳אט-בוט מקוון או שואל אפליקציית בינה מלאכותית מה עלול להיות, אתה משתמש באותו סוג טכנולוגיה שרופאים בודקים עכשיו בבתי חולים: מודלים גדולים של שפה, או LLMים. המחקר הזה שואל שאלה פשוטה אך חיונית: עד כמה הכלים האלה באמת מאבחנים מחלות ומחליטים על מידת הדחיפות של מקרה, בהשוואה לאנשי מקצוע בתחום הבריאות — ומה קורה כשהשניים עובדים יחד?

איך החוקרים הסתכלו על התמונה הגדולה
המחברים לא בחנו בוט אחד בלבד במרפאה בודדת. במקום זאת הם שילבו עדויות מ-50 מחקרים נפרדים שנערכו ברחבי העולם בין 2020 ל-2025. מחקרים אלה כיסו התמחויות רבות, ממחלות עיניים וסריקות מוח ועד טיפול בחירום. בכל אחד מהם, רופאים ואחד או יותר מודלי שפה קיבלו את אותן תיאורים של מקרים אמיתיים או מתוכננים בקפידה. ה-LLמים נדרשו להציע אבחנות אפשריות או להחליט כמה מהר המטופל צריך טיפול, בעוד שהרופאים עשו את אותו הדבר. בחלק מהמחקרים גם הוצגו לרופאים הצעות ה-AI כדי לבדוק האם הדבר שיפר את ביצועיהם.
כמה טובות מערכות ה-AI כשלעצמן?
בכל המחקרים, הכלים של ה-AI לעתים קרובות הצליחו לכלול את האבחנה הנכונה ברשימה שלהם, אבל רוב הזמן הם נותרו פחות מדויקים מהרופאים כשהם נאלצו לבחור תשובה אחת בלבד. כאשר נחשבה רק ההשערה העליונה, ה-LLמים היו בממוצע כ-11% פחות מדויקים מאנשי מקצוע בתחום הבריאות. ככל שרשימת ההשערות המותרת התארכה, הפער הזה הצטמצם ולבסוף נעלם — כעבור שש אפשרויות ועד עשר אבחנות אפשריות, מערכות ה-AI היו לפחות באותו שיעור סיכוי כמו הרופאים לכלול את האבחנה הנכונה. בהחלטות טריאז׳ — הערכת מידת הדחיפות ומה רמת הטיפול הנדרשת — ה-AI והאנשים הופיעו בדומה באופן כללי. עם זאת, התוצאות השתנו במידה ניכרת בין דגמים שונים והגדרות בדיקה שונות, מה שמרמז שחלק מהכלים אמינים יותר מאחרים.
מה קורה כשהרופאים משתמשים ב-AI כשותף?
תשעה מחקרים בחנו ישירות שיתוף פעולה: הרופאים עבדו קודם לבד ואז חזרו על המשימה בעזרת LLM. כאן החדשות היו מעודדות. בתמיכת ה-AI, הרופאים היו מדויקים יותר בסך הכל, במיוחד כאשר הורשו לתת מספר אפשרי של אבחנות. לדוגמה, בעזרת LLM, דיוקם ברשימות קצרות של מועמדים השתפר בכ-10–40%, בהתאם למספר האפשרויות שנשקלו. ממצא זה מציע שה-AI שימושי במיוחד כשותף ליצירת רעיונות שמרחיב את מערך האפשרויות ומניע קלינים לשקול מצבים פחות ברורים, בעוד המומחה האנושי עדיין מקבל את ההחלטה הסופית.

למה התוצאות של היום עלולות להיראות טובות יותר מהמציאות
למרות שהנתונים נשמעים מבטיחים, המחברים מזהירים שרוב המחקרים הקיימים רחוקים משלמות. רבים מהם הסתמכו על סיכומי מקרים מסודרים בסגנון ספר לימוד או על מקרים נדירים שנבחרו לצורכי הוראה, ולא על הסיפורים המבולגנים והלא שלמים שמטופלים מציגים במרפאות אמיתיות. רק מעטים השתמשו בחולים בזמן אמת. לעתים קרובות חסרו פרטים לגבי אופן בחירת המקרים, כיצד הוגדרו כלי ה-AI וכיצד נשפטו התשובות. מידע ויזואלי כגון סריקות או תמונות עור שומש פחות, וכאשר נבדקו רק תמונות, קלינאים מנוסים הצטיינו על פני ה-AI. החוקרים מדגישים גם כי קלינאים צעירים ומומחים עשויים להגיב באופן שונה לעצות ה-AI, ושנושאים כמו פרטיות נתונים, הטיה נסתרת ואמון יתר בהצעות המכונה נותרו ברובם בלתי נבדקים בשגרה היומיומית.
מה זה אומר למטופלים ולעתיד הטיפול
בסך הכל, המחקר מציע שצ׳אטבוטים ו-LLמים נוכחיים אינם מוכנים להחליף את הרופא שלך, אך הם עשויים בקרוב להפוך לעוזרים יקרים ערך. בשימוש נבון הם יכולים לסייע ביצירת רשימות רחבות יותר של אבחנות אפשריות ולתמוך בקבלת החלטות מדויקת יותר, במיוחד כאשר הרופאים נשארים אחראים ומתייחסים ל-AI כעצה שנייה ולא כפסק דין סופי. לפני שכלים אלה יוטמעו בשגרה, עם זאת, המחברים טוענים שצריך ניסויים מעוצבים טוב יותר בעולם האמיתי, תקני דיווח ברורים יותר ואמצעי הגנה חזקים סביב בטיחות, הוגנות ופרטיות. עבור המטופלים, משמעות הדבר היא שה-AI עשוי בסופו של דבר לסייע לצוות הטיפול שלכם לחשוב בהיקף רחב יותר ולפעול מהר יותר, אך כל מערכת אמינה חייבת להיבדק בקפדנות כמו תרופה חדשה או מכשיר רפואי.
ציטוט: Chen, M., Wu, Y., Ma, J. et al. Independent and collaborative performance of large language models and healthcare professionals in diagnosis and triage. npj Digit. Med. 9, 222 (2026). https://doi.org/10.1038/s41746-026-02409-8
מילות מפתח: בינה מלאכותית לאבחון רפואי, טריאז׳ קליני, מודלים גדולים של שפה, שיתוף פעולה רופא-בינה מלאכותית, בטיחות בריאות דיגיטלית