Clear Sky Science · he

הערכת ביצועים של טרנספורמר שנאמן מראש לייצור טקסט במבחן הלאומי לרישיון וטרינרי ביפן

2026-02-16 · חזרה לאינדקס

מדוע מבחני וטרינריה חכמים יותר חשובים לכולם

מאחורי כל ביקור בבית חולים לחיות עומדים שנים של הכשרה מעמיקה ומבחן לאומי בעל סיכונים גבוהים. ביפן, סטודנטים לווטרינריה חייבים לעבור את המבחן הלאומי לרישיון וטרינרי (NVLE), שבוחן הכול, מביולוגיה בסיסית ועד שיפוט קליני מורכב. המחקר הזה שאל שאלה עכשווית: האם מודלי השפה המתקדמים של היום, אותם סוגי מערכות שמפעילות צ’אבטים פופולריים, יכולים לפתור את המבחן התובעני הזה ביפנית — ומה היו ההשלכות לכך על החינוך הווטרינרי וטיפול בבעלי חיים?

מבחנים בינה מלאכותית במבחן רישיון וטרינרי אמיתי

החוקרים התמקדו בשלושה דורות של מודלים לשוניים גדולים של OpenAI: GPT‑4o, o1 ו‑o3. מערכות אלה נבנו לקריאה וליצירה של טקסט הדומה לטקסט אנושי, אך הן לא אומנו במיוחד לרפואה וטרינרית. כדי לבחון אותן, הצוות השתמש בגרסת ה‑74 של NVLE (2023) כמדד. המבחן מחולק לחמש מערכות, כולל שאלות טקסט בלבד ושאלות שמכילות תמונות כמו צילומי רנטגן, תמונות או דיאגרמות. כל השאלות הן רב־בחירה עם חמש אפשרויות, בדיוק כמו במבחן האמיתי של הסטודנטים. המודלים הוזנו כל שאלה דרך סקריפט מחשב סטנדרטי והיו מחויבים להגיב רק באמצעות מספר האפשרות הנבחרת, ללא אפשרות "להסביר" או לנהל משא ומתן על מתן נקודות.

איזה מודל בינה מלאכותית יצא כמנצח?

כאשר שלושת המודלים התמודדו עם ה‑74 NVLE בהגדרה הפשוטה ביותר — שאלות ביפנית והנחיית פקודה ישירה — עלו שתי מגמות ברורות. ראשית, כל המודלים הראו ביצועים חזקים בחלקים מבוססי טקסט, אך o1 ו‑o3 עקפו באופן עקבי את GPT‑4o. שנית, הביצועים נפלו בחלקים שבהם יש הרבה תמונות, אבל o1 ו‑o3 עדיין שמרו על שיעור מעבר רשמי לעומת זאת GPT‑4o נכשלה באחד מהחלקים הללו. בסך הכל, GPT‑4o ענה נכון על כ‑78% מהשאלות, בעוד o1 הגיע לכ‑92% ו‑o3 לכ‑93% בערך. מאחר ש‑o3 קיבל ציון כולל מעט גבוה יותר מאשר o1, בחרו החוקרים ב‑o3 לשאר הניסויים.

האם פקודות מורכבות או תרגום באמת עוזרים?

נכתב רבות על "הנדסת פרומפט" — ניסוח הוראות מורכבות כדי לעודד תשובות טובות יותר מהמכונה — וכן על תרגום שאלות מקומיות לאנגלית כדי להתאים לנתוני האימון של המודלים. המחקר בדק ישירות רעיונות אלה עם המודל o3, והשווה פרומפט בסיסי לפתרון לעומת פרומפט מפורט ומותאם, וכן שאלות ביפנית מול גרסאות שתורגמו קודם לאנגלית על‑ידי אותו מודל. במפתיע, אף אחד מהשינויים הללו לא העמיס השפעה משמעותית: o3 עבר בנוחות תחת כל שש הצירופים, והגישה הפשוטה ביותר (הטקסט היפני המקורי יחד עם הפרומפט הבסיסי) עבדה באותה מידה כמו ההגדרות המורכבות יותר. הדבר מצביע על כך שלפחות עבור שאלות וטרינריות אלה, המודלים המתקדמים כבר מבינים יפנית באופן מהימן ואינם זקוקים לפרומפטים מתוחכמים כדי להציג רמה גבוהה של ביצוע.

כמה יציב הביצוע במבחנים חדשים יותר?

כדי לבדוק האם התוצאות החזקות היו מקריות, הצוות נתן ל‑o3 את הגרסאות ה‑75 (2024) וה‑76 (2025) של NVLE, שוב בשימוש אך ורק בשאלות היפניות המקוריות ובפרומפט הרגיל. המודל השיג ציונים כוללים מעל 92% בשני המבחנים ועלה על סף המעבר בכל חלק, כולל האזורים העשירים בתמונות. ברוב השאלות התקבל אותו מענה בשלוש הרצות בלתי תלויות, מה שמראה שתשובות o3 היו בדרך כלל יציבות גם כאשר הוטלה מעט אקראיות. כשבדקו בחינה מעמיקה של הטעות של המודל, מצאו החוקרים שהשגיאות צברו בשני תחומים: ידע וטרינרי מעשי (כמו חוקים וטרינריים יפניים) ורפואה קלינית, שדורשים כללים ספציפיים למדינה והיקף חשיבה מרובה שלבים במקום זיכרון עובדות פשוט.

מה זה אומר — ומה זה לא אומר

המחקר מסיק שמודלים מהדור החותך בסגנון GPT יכולים כיום לעבור את מבחן הרישוי הווטרינרי של יפן ביפנית, בלי טריקים של תרגום או פרומפטים מורכבים. עבור בתי ספר לווטרינריה וסטודנטים, זה פותח דלת לשימוש בינה מלאכותית כשותף ללימוד, כמפיק שאלות או כמסביר נושאי מבחן. לציבור הרחב, זה מאותת שבינה מלאכותית הופכת לכלי חזק לארגון ושיתוף ידע וטרינרי. עם זאת, המחברים מדגישים שמערכות אלה אינן מוכנות להחליף וטרינרים או לקבל החלטות רפואיות באופן עצמאי. המודלים עדיין עלולים להבין תמונות בצורה מוטעית, להתקשות בשיפוט קליני דק ולהמציא עובדות מדי פעם. בשימוש זהיר הם עשויים להפוך לעוזרים בעלי ערך בהוראה ובליווי מידע וטרינרי — אך האחריות על בריאות החיה תישאר בידי בני אדם.

ציטוט: Kako, T., Kato, D., Iguchi, T. et al. Performance evaluation of generative pre-trained transformer on the National Veterinary Licensing Examination in Japan. Sci Rep 16, 4306 (2026). https://doi.org/10.1038/s41598-026-37300-9

מילות מפתח: מבחני רישיון וטרינריים, מודלים לשוניים גדולים, בינה מלאכותית ברפואה, ביצועי GPT, חינוך וטרינרי יפני