Clear Sky Science · he
הביצועים של DeepSeek ביצירת שאלות למבחני תוך־הכשרה בהכשרת מתמחים ברדיולוגיה
מדוע שאלות מבחן חכמות חשובות
רופאי הדימוי הרפואי המתלמדים עוברים מבחנים תכופים כדי לבדוק מה הם יודעים וכמה טוב הם יכולים לטפל בחולים. כתיבת שאלות המבחן גוזלת זמן מומחים רב, ומוסדות הלימוד תוהים האם כלים של בינה מלאכותית יכולים לסייע. במחקר זה נבחן האם מודל שפה גדול בשם DeepSeek יכול לחלוק חלק מהעבודה על ידי כתיבת שאלות בבחירה מרובה למתמחים ברדיולוגיה, והיכן עדיין דרושים במפורש מומחים אנושיים.

מה רצו החוקרים לדעת
הצוות בסין התרכז בחלק מרכזי בהכשרת רדיולוגים: מבחני תוך‑הכשרה המנטרים את התקדמות המתמחים מדי שנה. הם השוו שתי קבוצות תואמות של שאלות מבחן. קבוצה אחת נכתבה על‑ידי רדיולוגים מנוסים בהתאם לסטנדרטים לאומיים. הקבוצה השנייה נוצרת בסינית על‑ידי מודל השפה DeepSeek באמצעות פרומפטים מתוכננים היטב שציינו נושא, רמת מתלמד וסוג שאלה. כל השאלות היו חייבות לעמוד באותן כללים ונבדקו על‑ידי רדיולוג בכיר כדי לוודא שהן מדויקות והוגנות לפני השימוש.
כיצד ניסוי המבחן עבד
מאגרי השאלות שימשו לבחירה אקראית של 14 שאלות שנוצרו על‑ידי ה‑AI ו‑14 שאלות של מומחים, שהומזגו למבחן מקוון בן 28 פריטים. ארבעים מתמחים ברדיולוגיה בשנתם השנייה או השלישית עברו את המבחן בסגנון סגור (בלי דפי עזר). לכל שאלה הם בחרו תשובה, ניחשו האם השאלה נכתבה על‑ידי DeepSeek או על‑ידי מומחה אנושי, ודרגו אותה לפי רמת קושי, התאמה לתכנית הלימודים, איכות כללית ועד כמה הסיפור הקליני נראה מציאותי. העיצוב הזה איפשר לצוות להשוות לא רק ציונים אלא גם את תחושת הלומדים לגבי השאלות.

איפה ה‑AI מתחרה עם הכותבים האנושיים
במהלך כל המבחן, המתמחים קיבלו בערך את אותו שיעור תשובות נכונות בין שהשאלות נכתבו על‑ידי DeepSeek או על‑ידי מומחים, והם לא היו מיומנים בזיהוי מקור כל שאלה. עבור סוג השאלה הפשוטה ביותר, שמטרתה עובדות בסיסיות וחוקים ברורים, הפריטים של DeepSeek הופיעו בדומה לאלו שנכתבו על‑ידי בני אדם. מדדים אובייקטיביים בבחינות, כגון יכולת הפרדה בין סטודנטים חזקים לחלשים, הצביעו גם הם שהפריטים היסודיים מה‑AI היו בדרך כלל יציבים. משמעות הדבר היא ש‑AI יכול לסייע בבניית מאגרים גדולים של שאלות פשוטות שמחזקות את המושגים המרכזיים ובהקלה על העומס על המורים.
איפה השיפוט האנושי עדיין מוביל
התמונה השתנתה כאשר השאלות כללו סיפורי חולים עשירים יותר והחלטות קשות יותר. עבור שאלות ברמת מורכבות בינונית עם סצנות קליניות קצרות, המתמחים השיבו נכון לשאלות ה‑AI והן של המומחים בשיעורים דומים, אך דרגו את הגרסאות של המומחים כיותר מציאותיות וקצת יותר קשות, במיוחד בקרב מתמחים בכירים יותר עם ניסיון מעשי רב יותר. עבור השאלות המורכבות ביותר שבנויות סביב סדרות מקרים רב‑שלביות והכרעות שיפוטיות, המתמחים קיבלו ציונים גבוהים באופן בולט יותר על הפריטים שנכתבו על‑ידי המומחים מאשר על אלו של DeepSeek. מתלמדים, ובפרט אלו בשנותיהם הראשונות, נראו מועדים להטעה או לבלבול על‑ידי המצבים הקליניים הדלילים פחות והפחות אותנטיים שנוצרו על‑ידי ה‑AI.
כיצד אנשים ו‑AI יכולים לעבוד יחד
המחברים מציעים גישה מדורגת. DeepSeek וכלים דומים מתאימים היטב לנסח מספר גדול של שאלות בסיסיות ומסודרות היטב שמכסות עובדות והגדרות סטנדרטיות. מומחים אנושיים, בתמורה, צריכים להישאר אחראים על שאלות הבוחנות כיצד רופאים חושבים בתוך אי‑ודאות, שוקלים אפשרויות ומיישמים ערכים בהקשרים קליניים אמיתיים. AI יכול גם לסייע לסוקרים לזהות שאלות חלשות, בעוד המומחים מספקים את ההבנה המיוחדת שבאה רק מטיפול בחולים. עם גבולות ברורים ופיקוח מדוקדק, שילוב בין AI לשיפוט מומחים יכול להפוך את בניית המבחנים ליעילה יותר ולשפר את היכולת למדוד מה שבאמת חשוב.
ציטוט: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8
מילות מפתח: הכשרת רדיולוגיה, שאלות מבחן, בינה מלאכותית, מודלי שפה גדולים, הכשרה רפואית