Clear Sky Science · he

הישגים השוואתיים של דגמי שפה גדולים עדכניים וקודמים ושל מתמחים בפדיאטריה בשאלות מבחן תוך-הכשרה בפדיאטריה

· חזרה לאינדקס

מדוע זה חשוב לרופאים ולמשפחות

כשכלי בינה מלאכותית מתחילים להופיע בבתי חולים ובבתי ספר לרפואה, שאלה מרכזית פשוטה עולה: האם מערכות אלה באמת יכולות להתחרות בשיפוט של רופאים בהכשרה, במיוחד כשמדובר בבריאות ילדים? מחקר זה בוחן כיצד מספר דגמי שפה מובילים מתפקדים על שאלות מבחן בפדיאטריה ומה משמעות הדבר עבור טיפול וחינוך בעתיד.

בדיקת AI על שאלות מבחן אמיתיות

החוקרים אספו 498 שאלות ממבחני תוך-הכשרה בפדיאטריה שנערכו בבית חולים ילדים גדול בקוריאה בין השנים 2016 ל-2023. מבחנים אלה משמשים להערכת התקדמות המתמחים במהלך ארבע שנות ההכשרה שלהם. רוב השאלות היו רב-ברירתיות וכיסו מגוון רחב של דיסציפלינות, מטיפול ביונקים ותשישות זיהומית ועד מחלות לב וטיפול קריטי. בערך אחת מכל חמש שאלות כללה תמונה רפואית, כמו צילום רנטגן, סריקה או תצלום קליני, בעוד ששאר השאלות הסתייעו בתיאורים כתובים בלבד.

Figure 1. מערכות בינה מלאכותית ומתרגלים בפדיאטריה מושוות בשאלות בכתב הבודקות ידע על בריאות ילדים.
Figure 1. מערכות בינה מלאכותית ומתרגלים בפדיאטריה מושוות בשאלות בכתב הבודקות ידע על בריאות ילדים.

כיצד המחקר השווה בין אנשים ומכונות

נבחנו שישה דגמי שפה מוכרים, המייצגים שלוש משפחות מערכות מרכזיות ושתי דורות לכל משפחה: גרסאות קודמות וגרסאות עדכניות עם יכולות ויזואליות. המודלים קיבלו את חוברות הבחינה המלאות, לא שאלות בודדות, והיו צריכים לזהות בעצמם מהו טקסט השאלה, מהן אפשרויות התשובה ואילו רכיבים הם תמונות. השאלות נכתבו במקור בקוריאנית עם מונחים רפואיים באנגלית, וסופקו תרגומים נבדקים בקפידה. גם המתמחים וגם מערכות ה-AI הוערכו לפי אותם כללים, כאשר תשובה נחשבה נכונה אם תאמה את הפתרון הרשמי או מונח מקובל בעל משמעות שווה. כדי לבחון יציבות, כל סט מבחנים הורץ חמש פעמים וחושבה העקביות בין ההרצות.

כמה טוב AI עמד מול מתמחי פדיאטריה

הביצועים סוכמו כשיעור השאלות שנענו נכון. כמקובל, הציונים האנושיים עלו עם דרגת ההכשרה: מתמחים בשנתם הראשונה ענו קצת יותר מחצי השאלות נכון, בעוד שמתמחים בשנתם הרביעית הגיעו לכ-70 אחוז. הדגמים העדכניים של ה-AI עשו זאת אפילו טוב יותר בסך הכל, עם ציון של כ-78 אחוז על כלל השאלות ובהבחנה ניצחו בבירור את המתמחים הוותיקים ביותר. גרסאות קודמות של ה-AI הציגו ביצועים הדומים למתמחים בכירים. כאשר החוקרים התרכזו רק בשאלות מבוססות טקסט, הדגמים העדכניים הקדימו את המתמחים בשנה הרביעית בכשלון של כ-10 נקודות אחוז. מערכות ה-AI גם היו מאוד יציבות מריצה לריצה, עם ציונים כמעט זהים בכל פעם.

Figure 2. דגמי AI מטפלים טוב יותר בשאלות טקסטואליות מאשר בשאלות מבוססות תמונה כשעונים על בעיות במבחני פדיאטריה.
Figure 2. דגמי AI מטפלים טוב יותר בשאלות טקסטואליות מאשר בשאלות מבוססות תמונה כשעונים על בעיות במבחני פדיאטריה.

היכן ה-AI עדיין מתקשה עם תמונות

התמונה השתנתה כאשר הופיעו תמונות רפואיות. בשאלות שכללו תמונות, אף אחת ממערכות ה-AI לא עלתה על המתמחים הבכירים. הדגמים העדכניים השיגו תוצאות טובות יותר מקודמיהם והגיעו לדיוק באמצע שנות ה-70 עבור פריטי ויזואליים אלה, אך תוצאותיהם עדיין נותרו מאחורי ביצועיהם החזקים על שאלות טקסט בלבד. דפוס זה החזיק לגבי סוגים שונים של תמונות, כולל רנטגנים, סריקות ותמונות קליניות, ובהיקף רחב של נושאים בפדיאטריה. הממצאים מהדהדים מחקרים אחרים שמראים שבעוד שדגמי שפה חזקים בקריאה ובהיסק בטקסט, יכולתם להבין תמונות רפואיות, ובמיוחד אצל ילדים, נותרת מוגבלת.

מה זה אומר לטיפול והכשרה

המחברים טוענים שהתוצאות הללו מעודדות עבור החינוך אך מלהיבות זהירות כשמדובר בשימוש קליני ישיר. ציונים גבוהים ויציבים על שאלות כתובות מרמזים שמערכות כאלה יכולות לשמש כשותפי למידה שימושיים, ולהציע למתמחים בפדיאטריה שאלות תרגול מהירות והסברים. עם זאת, הצלחה במבחני רב-ברירה אינה מבטיחה ביצועים בטוחים בחולים אמיתיים, שבהם המידע פחות מסודר, ההחלטות מורכבות ופענוח תמונות קריטי. בקיצור, כלי ה-AI הרב-מודליים של היום כבר יכולים להתחרות במתמחים בכירים במבחנים כתובים בפדיאטריה, אך הם עדיין חסרים כשמדובר במשימות כבדות תמונה ואינם מוכנים להחליף שיפוט אנושי במרפאה.

ציטוט: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

מילות מפתח: פדיאטריה, דגמי שפה גדולים, מבחנים רפואיים, תמיכה בקבלת החלטות קליניות, חינוך רפואי