Clear Sky Science · he

הערכה של שלושה צ'אטבוטים מבוססי בינה מלאכותית ליצירת שאלות רב-ברירתיות בהמטולוגיה קלינית עבור סטודנטים לרפואה

2026-01-20 · חזרה לאינדקס

שאלות מבחן חכמות יותר לרופאים של המחר

מבחני רב-ברירתיות אולי לא נשמעים מרתקים, אבל הם מעצבים בשקט את היכולות של הרופאים העתידיים. כל שאלה בבחינה יכולה לכוון את הדרך שבה הסטודנטים חושבים על מטופלים אמיתיים. מחקר זה שואל שאלה רלבנטית לזמננו: האם צ'אטבוטים מודרניים מבוססי בינה מלאכותית יכולים לעזור למרצים רפואיים עסוקים לכתוב במהירות שאלות בחינות טובות בתחומי מחלות הדם, בלי לפגוע באיכות או בבטיחות?

איך בינה מלאכותית סייעה בבניית שאלות לבחינה

החוקרים התמקדו בשלושה צ'אטבוטים נפוצים, כולם מיועדים ליצירת טקסט. הם ביקשו מכל מערכת לכתוב 50 שאלות רב-ברירתיות בהמטולוגיה, תחום העוסק בהפרעות דם כמו אנמיה ולוקמיה. השאלות נדרשו לכסות חמישה נושאים שכיחים שמופיעים בבחינות רפואיות ובקליניקה: פנצטופניה (ירידה בספירות כל תאי הדם), אנמיה, תרומבוציטופניה (טסיות דם נמוכות), ושתי קבוצות של גידולים המטולוגיים הנקראות תסמונות מיאלופרוליפרטיביות ולימפופרוליפרטיביות. בסך הכל, הצ'אטבוטים ייצרו 150 שאלות בפחות מחצי דקה לכל מערכת — חיסכון עצום בזמן לעומת כתיבה ידנית.

בחינת שאלות שנכתבו על ידי בינה מלאכותית

מהירות לבדה אינה משמעותית אם השאלות שגויות, מבלבלות או לא הוגנות. כדי לבדוק איכות, שלושה מרצים מנוסים בהמטולוגיה — שלא ידעו מי מהצ'אטבוטים כתב כל שאלה — דירגו כל פריט באמצעות רשימת בדיקה מפורטת. הם נתנו ציונים לדיוק המדעי, לרלוונטיות הקלינית, לבהירות הניסוח, לאמינות התשובות השגויות ולאיכות הכללית בסולם של חמש נקודות. הם גם קבעו האם כל שאלה ברמת קושי מתאימה לסטודנטים לרפואה והאם היא יכולה להבחין בין סטודנטים חזקים לחלשים. שאלות שהגיעו לפחות ל-15 מתוך 25 נקודות נחשבו מקובלות לשימוש, ואחרות נזקקו לתיקון או הודחה.

איזה צ'אטבוט הצטיין?

כל שלושת המודלים ייצרו ברובם שאלות מוצקות, אך מודל אחד בלט מעל השאר. בדירוג המומחים, צ'אטבוט זה קיבל את הציונים הגבוהים ביותר בדיוק, ברלוונטיות קלינית ובתשובות השגויות שנראו אמינות. כל 50 השאלות שלו עברו את סף הקבלה, ולא אחת נזקקה לשינוי. שני המודלים האחרים עדיין הופיעו בביצועים טובים: יותר מתשעים אחוז מהשאלות שלהם היו מספיק טובות אך דרשו נגיעות קלות, לעיתים כי אפשרות שגויה הייתה בולטת מדי או פרט מסוים יכל להיות ברור יותר. בסך הכל, המומחים הסכימו שכל שלושת הכלים יכולים ליצור במהירות חומר בחינה שקרוב מאוד לשימוש בכיתה.

כישורי חשיבה, לא רק שינון

הצוות ביקש גם לאפיין איזה סוג חשיבה דורשות השאלות שכתבו הבוטים מהסטודנטים. באמצעות טקסונומיית בלום — מסגרת שמחנכים משתמשים בה כדי לסווג מיומנויות מנטליות — הם חילקו את השאלות לידיעות והבנה פשוטות מול מיומנויות ברמה גבוהה יותר כמו יישום עובדות, ניתוח מצבים והערכה. למרבה ההפתעה, הצ'אטבוטים ייצרו ברובם שאלות ברמה גבוהה. עבור מודל אחד, יותר מ-90% מהפריטים דרשו מהסטודנטים להסיק סברות בתוך תרחישי קליניות במקום רק לשחזר עובדות. שאלות של שינון בסיסי היו יחסית נדירות בכל שלושת המערכות. דפוס זה מרמז שמודלים לשוניים גדולים, שאומנו על כמויות עצומות של טקסט מקושר, נוטים מטבעם ליצור תרחישים עשירי הקשר הפונים לפתירת בעיות במקום ליצור שאלות בסגנון כרטיסי זיכרון.

הבטחה, מגבלות והצורך בשותפות אנושית

למרות יתרונות אלה, המחקר חשף פערים חשובים. אף אחד מהצ'אטבוטים לא הציע ביוזמתו שאלות מבוססות תמונה, שהן חיוניות בהפרעות דם שבהן רופאים נדרשים לפרש תמונות מיקרוסקופיות וגרפיקות מעבדתיות. כאשר נשאלו ישירות לגבי פריטים מבוססי תמונה, שתי מערכות הודו כי אינן יכולות לספקם ואחת הציגה ניסיון באיכות נמוכה. המחקר הסתמך גם על חוות דעת מומחים ולא על נתוני בחינה אמיתיים של סטודנטים, ולכן אינו יכול להוכיח במלואו עד כמה שאלות אלה היו מתפקדות במבחנים חיים. המחברים מדגישים שמרצים עדיין נדרשים לבדוק עובדות, לחדד ניסוחים ולהבטיח שכיסויים מושלמים של מושגים בסיסיים.

מה המשמעות עבור ההכשרה הרפואית העתידית

לקריאה הכללית, המסקנה היא שבינה מלאכותית אינה מחליפה את המרצים הרפואיים, אך היא הופכת לעוזר רב עוצמה. במחקר זה, צ'אטבוטים ייצרו במהירות שאלות שבמקרים רבים היו מדויקות ובעלות מציאות קלינית, שעוזרות לסטודנטים לתרגל קבלת החלטות בהפרעות דם. מודל אחד במיוחד הפיק שאלות באיכות כה גבוהה שאנשי מקצוע היו משתמשים בהן עם שינוי קל או ללא שינוי כלל. יחד עם זאת, המכונות התעלמו ממבחני ידע פשוטים ולא יכלו להתמודד עם חומר חזותי בכוחות עצמן. המחברים מסכמים שהגישה הטובה ביותר היא שותפות: ה-AI עושה את העבודה הכבדה של טיוטת שאלות מגוונות, בעוד שמומחים אנושיים מנחים את ההנחיות, משלימים בסיס חסר, מאמתים את התוכן ומעדכנים בהתאם להנחיות רפואיות משתנות.

ציטוט: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

מילות מפתח: חינוך רפואי, בינה מלאכותית, המטולוגיה, שאלות רב-ברירתיות, צ'אטבוטים