Clear Sky Science · he

ביצוע ב‑zero‑shot של מודלים גדולים לשפה ומולטי‑מודליים בבחינת התמחות רפואית בברזיל 2023 בפורטוגזית

2026-03-26 · חזרה לאינדקס

מדוע זה חשוב לרופאים ולחולים

בינה מלאכותית נכנסת במהירות לבתי חולים וקליניקות, אך רוב הבדיקות של מערכות אלה נערכות באנגלית. המחקר הזה שאל שאלה פשוטה ובעלת השלכות גבוהות: עד כמה המודלים המתקדמים של היום מטפלים בשאלות אמיתיות מתוך מבחנים רפואיים שכתובים בפורטוגזית ברזילאית, כולל שאלות המשלבות תמונות כמו צילומי רנטגן? התשובה מסייעת לרופאים, למחנכים ולמקבלי מדיניות לשפוט האם הכלים הללו מוכנים לסייע בטיפול במדינות שבהן אנגלית אינה השפה העיקרית.

להעמיד את ה‑AI במבחן כניסה רפואי אמיתי

החוקרים לקחו את מבחן כניסת ההתמחות הרפואית לשנת 2023 מאחד מבתי החינוך המובילים בברזיל, מבחן שאליו ניגשים אלפי רופאים צעירים מדי שנה. המבחן מכיל 117 שאלות רב‑ברירתיות המכסות רפואת פנימית, ניתוחים, רפואת ילדים, גינקולוגיה ולידה ובריאות הציבור. רוב השאלות הן טקסט בלבד, אך יותר ממחצית לשליש כוללות תמונות כגון סריקות רנטגן, תמונות קליניות ורישומים דיאגנוסטיים. שישה מודלים טקסטואליים בלבד וארבעה מודלים מולטי‑מודליים שיכולים גם לראות תמונות נדרשו לענות על המבחן בהגדרת “zero‑shot”: לא ניתנו להם דוגמאות קודמות או כיוונון מיוחד למבחן הזה, רק הוראות סטנדרטיות לבחור תשובה ולהסביר את ההיגיון שלהם.

כמה חכמים המודלים בשאלות כתובות?

בשאלות המורכבות מטקסט בלבד, הביצועים נעו בטווח רחב. המערכת החלשה ביותר ענתה נכון קצת יותר מאחת מכל חמש שאלות, בעוד שהמודלים הטובים ביותר ענו נכון בערך על שבע מתוך עשר. משפחת מודלים הנקראת Claude הובילה את הטבלה, עם ציונים סביב 70 אחוז, מעט מעל GPT‑4.0 Turbo וברור שניצחה כמה מתחרים פתוחים ומסחריים. עם זאת, מודל קוד פתוח עם כמה מיליארדי פרמטרים התקרב למובילים, מה שאומר שביצועים חזקים אינם בהכרח שמורים למערכות קנייניות. כאשר החוקרים השוו ציונים אלה עם התפלגות הציונים של מועמדים אנושיים, המודלים הטובים ביותר התקבצו סביב אמצע מארג המועמדים: לא סטודנטים מצטיינים, אלא בערך ברמתו של רופא צעיר ממוצע הניגש למבחן.

התמונות עדיין מבלבלות את ה‑AI של היום

המצב השתנה כאשר נוספו תמונות. בארבעת המודלים המולטי‑מודליים שנבדקו, הדיוק ירד לאחר שהוכנסו שאלות מבוססות תמונה, לעתים קרובות מתחת ל‑50 אחוז נכונות, במיוחד בפריטים שיש בהם עומס רדיולוגי. רק המודל המתקדם ביותר שמר על ציון כמעט זהה בשאלות מעורבות של טקסט ותמונה לעומת טקסט בלבד. על פני תחומים, המערכות הציגו ביצועים טובים יותר בבריאות הציבור וברפואת ילדים, והגפירו את הביצועים ברדיולוגיה ובשאלות ממוקדות תמונה אחרות, מה שמרמז שהנתונים ואדריכלות המודלים הנוכחיים מטיבים עם חומר כתוב על פני תמונות רפואיות. הרופאים שעבדו במחקר לא חשו שהשאלות עם תמונות קשות יותר עבור בני אדם מטבען, אך הנתונים הזמינים לא אפשרו השוואה ישירה שאלה‑אחר‑שאלה מול בני אדם, כך שנותר לא ברור עד כמה פער הביצועים נובע מהסקת תמונות מול מקורות אחרים של קושי בשאלה.

מציצים פנימה להסברים

כדי לצאת מעבר לציונים של נכון‑או‑לא, הצוות ביקש משלושה רופאים מנוסים לסקור את ההסברים שמודול מולטי‑מודלי אחד הפיק. הם העריכו האם ה‑AI פרש נכון את השאלה, האם ההיגיון שלו תואם את התשובה הנבחרת והאם מעקב אחרי העצה שלו עלול להזיק למטופל. עבור שאלות שהתשובה שלהן הייתה נכונה, ההסברים שלרוב היו קוהרנטיים ונחשבו בטוחים. לעומת זאת, עבור שאלות שבהן המודל שגה, ניכרו הסברים מטעהים או המצאות — תופעה שמכונה לעתים 'הלוצינציות'. הרופאים לעתים לא הסכימו אילו מההסברים בעייתיים, משקף את אזורי האפור הטבועים בשיפוט הרפואי, אך הם הסכימו יותר כאשר תשובת ה‑AI הייתה ברורה‑בהרבה שגויה ועלולה להיות לא בטוחה.

מה משמעות הדבר עבור AI בטיפול היומיומי

בסך הכל, המחקר מראה שמודלים גדולים של היום יכולים להתקרב לביצוע אנושי ממוצע במבחן רפואי תובעני שנכתב בפורטוגזית ברזילאית, לפחות בשאלות טקסטואליות בלבד. עם זאת, הם עדיין מתקשים עם תמונות רפואיות ועלולים להציע הסברים בטוחים אך שגויים שעלולים להטעות רופאים אם ישתמשו בהם ללא ביקורת. הממצאים מדגישים הן את ההבטחה והן את המגבלות של המערכות הנוכחיות: הן עשויות להפוך לעוזרים שימושיים בשירותי בריאות דוברי פורטוגזית, במיוחד בקריאת טקסטים וסיכומם, אך אינן מוכנות להחליף רופאים מיומנים או לטפל באבחון מולטי‑מודלי מורכב ללא פיקוח קפדני ושיפור מתמשך.

ציטוט: Truyts, C.A.M., Rabelo, A.G., Souza, G.M.d. et al. Zero-shot performance of selected large language and multimodal models on the 2023 Brazilian Portuguese medical residency exam. Sci Rep 16, 11756 (2026). https://doi.org/10.1038/s41598-026-42829-w

מילות מפתח: בינה מלאכותית רפואית, מודלים גדולים של שפה, רפואה בפורטוגזית, אבחון מולטי‑מודלי, חינוך רפואי