Clear Sky Science · he
הערכת השוואתית רב‑מדדית של DeepSeek ו‑ChatGPT ב‑USMLE מול CNMLE לחינוך רפואי
למה עוזרי מבחנים חכמים חשובים
רופאים עתידיים ברחבי העולם חייבים לעבור מבחני רישוי קשים לפני שיוכלו לטפל בחולים. במקביל, צ׳אטבוטים חזקים מבוססי מודלים לשוניים גדולים הופכים לשותפי למידה שגרתיים. מאמר זה בוחן מקרוב כיצד שני מערכות כאלה, DeepSeek ו‑ChatGPT, מתמודדות עם מבחני רישוי רפואי המשמשים בארצות הברית (USMLE) ובסין (CNMLE), ושואל שאלה פשוטה עם השלכות גדולות: האם כלים אלה באמת יכולים לסייע לחנך רופאים בטוחים ומוכנים — ואם כן, באילו אמצעי זהירות?

שני מבחנים גדולים, שני כלים רבי‑עוצמה
החוקרים התמקדו ב‑USMLE וב‑CNMLE, מבחנים ארציים שבוחנים טווח רחב של ידע רפואי, ממדע בסיסי ועד קבלת החלטות קלינית. הם אספו מאות שאלות אמיתיות: 243 מדגם השאלות של ה‑USMLE ו‑300 מבנק השאלות של ה‑CNMLE, המכסים נושאים כמו פנימית, ניתוחים, רפואת ילדים, פסיכיאטריה ועוד. שאלות שהצריכו צפייה בתמונות רפואיות הוסרו כך ששתי המערכות יעמדו בפני אתגרים מבוססי‑טקסט בלבד. הצוות פנה אז לשתי גרסאות של כל מערכת — GPT‑4o‑mini ל‑ChatGPT ו‑DeepSeek‑R1 ל‑DeepSeek — הן באנגלית והן בסינית, באמצעות הוראות פשוטות שחיקו את האופן שבו סטודנט אמיתי עשוי לבקש עזרה בהכנה למבחן.
מי ענה טוב יותר, ובאיזו יציבות?
כדי להשוות הוגן, החוקרים הריצו כל מבחן שלוש פעמים עם כל מערכת, ואז מדדו כמה תדיר התשובות התאימו למפתח הרשמי. בשאלות ה‑USMLE ענתה DeepSeek נכון בכ‑93% מהמקרים, מעט לפני ChatGPT בכ‑90% בקירוב. ל‑DeepSeek הייתה יתרון דומה ב‑CNMLE, עם ציון של כ‑87% לעומת כ‑79% של ChatGPT. DeepSeek עלתה על ChatGPT בכל שלושת שלבי ה‑USMLE, כולל מקטע קבלת ההחלטות הקלינית המורכב ביותר, ובכל ארבעת יחידות ה‑CNMLE, במיוחד באזורים עשירים בידע מדעי בסיסי וקליני בסינית. הצוות גם בדק כמה יציבות יש לכלי בהרצות חוזרות, ומצא ששניהם הציגו עקביות גבוהה, כש‑DeepSeek שוב מעט חזק יותר.
חושבים בקול, אבל לפעמים לאט מדי
מודלים לשוניים מודרניים לעתים קרובות מציגים את טיעוניהם שלב‑אחר‑שלב, בדומה לסטודנט הכותב את הלוגיקה שלו. החוקרים ספגו את מספר התווים בהסברים האלה כמדד גס לכמה "חשיבה" כל מערכת הציגה. ב‑USMLE, שני הכלים היו דומים והסיפקו הסברים באורך משווה. ב‑CNMLE, עם זאת, DeepSeek ייצר הסברים ארוכים משמעותית, דבר שמעיד על שרשראות חשיבה עמוקות או מפורטות יותר כשהוא טיפל בשאלות הרפואיות המורכבות בסינית. התשלום על כך היה מהירות: DeepSeek לקח יותר זמן להשלים את שני המבחנים, ובמיוחד את ה‑CNMLE, בעוד ChatGPT ענה מהר יותר. במילים אחרות, DeepSeek נטה להיות מדויק יותר ומתלבט יותר במילים, בעוד ChatGPT העדיף יעילות.

הבטחה, מלכודות ורשת בטיחות חדשה
למרות הציונים החזקים שלהם — גבוהים, בממוצע, מהרבה נבחנים אנושיים — שתי המערכות עדיין עשו טעויות משמעותיות. במקרים מסוימים הן בחרו טיפולים נשמעים סבירים אך שגויים או הבינו לא נכון מושגים דקים, תופעה ידועה בשם "הלוצינציה", שבה המודל ממציא או מיישם באופן לא נכון עובדות בביטחון. במקביל, הן הראו חוזקות מפתיעות, כמו זיהוי שאלות מבחן פגומות שאין להן תשובה נכונה כלל. מכיוון שהחינוך הרפואי קשור קשר הדוק לבטיחות המטופל, הכותבים טוענים שיש להתייחס לכלים אלה כעוזרים ולא כגורמי סמכות. לתמיכה בשימוש בטוח יותר, הם מציעים "לולאת בדיקת עובדות" טכנית שמקשרת את המודל לגרף ידע רפואי מבוסס בקפידה. כאשר המודל עונה על שאלה, הטענות יפורקו, ייבדקו מול מקורות מהימנים כמו קווים מנחים וספרי לימוד, ויקבלו רמות ביטחון לפני שיוצגו ללומדים.
מה משמעות הדבר עבור ההכשרה הרפואית העתידית
עבור הלא‑מומחים, המסר הוא מעודד וזהיר בו‑זמנית. DeepSeek ו‑ChatGPT כבר מבצעים ברמה שווה או גבוהה מרבים מסטודנטים לרפואה במבחנים כתובים, מה שמרמז שהם יכולים לתמוך באופן משמעותי בלימוד, בשאלות תרגול ואפילו בעיצוב מחדש של ההוראה סביב טיעון עשיר שלב‑אחר‑שלב. עם זאת, טעויותיהם — והאפלליות באופן שבו הם מגיעים למסקנות — משמעותם שהם לא יכולים להחליף מורים אנושיים או קלינאים מורשים. הכותבים מדמיינים עתיד שבו מערכות כאלה משמשות כ"מאמנים‑עוזרים" מפוקחים באופן הדוק ללומדים רפואיים, מוטמעות במסגרת שבוחשת ראיות, עוקבת אחרי אמינות ושומרת על שיפוט אנושי במרכז. אם יבנו ויושתו בזהירות, עוזרי ה‑AI האלה יכולים בהדרגה להזיז את החינוך הרפואי מהישענות על שינון פשוט ללמידה אינטראקטיבית ויוצרת — מבלי לאבד את המטרה העליונה: טיפול בטוח יותר בחולים אמיתיים.
ציטוט: Wang, Q., Li, J., Li, X. et al. Multi-metric comparative evaluation of DeepSeek and ChatGPT in USMLE versus CNMLE for medical education. Sci Rep 16, 13880 (2026). https://doi.org/10.1038/s41598-026-40043-2
מילות מפתח: בינה מלאכותית בחינוך הרפואי, מודלים לשוניים גדולים, ביצועים ב‑USMLE, מבחן רישוי הרופאים הסיני, מסגרת בדיקת עובדות