Clear Sky Science · he
MediQAl: מאגר שאלות רפואיות צרפתיות להערכת ידע והסקת מסקנות
מדוע חשוב לבדוק בינה רפואית בצרפתית
רוב האנשים פונים כיום לכלים מקוונים, ולעיתים לכלים שפועלים בבינה מלאכותית, כדי לקבל מידע רפואי. עם זאת, הרוב המכריע של המערכות הללו מאומנות ונבדקות באנגלית, אף על פי שמיליוני מטופלים ורופאים פועלים בשפות אחרות. מאמר זה מציג את MediQAl, אוסף גדול של שאלות ממבחני רישוי רפואיים בצרפתית שנועד לחשוף עד כמה מערכות ה-AI של היום באמת מבינות ומסיקות מסקנות ברפואה בצרפתית, ומהן המגבלות שבהן עדיין נתקלים.
מאגר חדש של שאלות אמיתיות ממבחנים רפואיים
הלב של MediQAl הוא אוסף של 32,603 שאלות שנמשכו ממבחני רישוי רפואיים לאומיים בצרפת. מבחנים בעלי סיכון גבוה אלה, שנכתבו על ידי מומחים אקדמיים ובתי חולים, נבנו כדי לחקות את הפרקטיקה הקלינית האמיתית: הם משלבים עובדות מתוך ספרי לימוד עם תרחישים אמיתיים ומורכבים שבהם תסמינים מתפתחים לאורך זמן ורמזים חשובים עשויים להיות רק מרומזים. סגנון המבחן הצרפתי מוסיף קושי נוסף למכונות: השאלות ארוכות, המשפטים מסובכים, והמלכודות לעיתים תלויות בשלילות או יוצאי דופן כגון «כל האמור לעיל נכון, למעט…». על‑ידי שמירה על מבנה אותנטי זה, MediQAl מציע מגרש מבחן תובעני וריאלי לבחינת בינה רפואית מעבר לדוגמאות פשוטות מהכיתה.

שלוש דרכים לבחון רופא מבוסס AI
MediQAl מאורגן בשלוש סוגי משימות שמשקפים את אופן מבחן הרופאים. הקבוצה הראשונה והגדולה ביותר היא שאלות רב־ברירתיות עם תשובה יחידה, שבה רק אחת מחמש האפשרויות נכונה. הקבוצה השנייה מאפשרת מספר תשובות נכונות, ומאלצת מערכות לשקול שילובי ממצאים כפי שרופא עשוי לשקול סיבוכים אפשריים מרובים בו־זמנית. הקבוצה השלישית מורכבת משאלות פתוחות קצרות שבהן המערכת חייבת לייצר תשובה קצרה משלה במקום לבחור מתוך רשימה. כל שאלה מתוייגת כתכלית מבחן של הבנה פשוטה (זכירה או יישום עובדות מוכרות) או כהסקת מסקנות אמיתית (חשיבה רב‑שלבית, שילוב רמזים או התמודדות עם אי־ודאות). מבנה זה מאפשר לחוקרים לבדוק לא רק מה ה‑AI “יודע”, אלא גם כיצד הוא חושב דרך המקרה.
כיצד נבנה המאגר וכיצד נבדק
בכדי להרכיב את MediQAl, המחבר שלף שאלות מאתרי הכשרה וחומר רשמי שבהם סטודנטים ומרצים משתפים שאלות ממבחנים קודמים. שאלות רב־ברירתיות הופעלו בהוצאתן באופן אוטומטי, בעוד שהשאלות הפתוחות הפחות מובנות דרשו שילוב של תבניות זיהוי ועיבוד ידני מתוך דפי האינטרנט ו‑PDFים. הצוות הסיר שאלות עם תשובות חסרות, תמונות או טבלאות, תשובות חופשיות ארוכות מאוד, וכפילויות קרובות שנתגלו באמצעות מדידות דמיון על גבי השאלות והפתרונות. כדי למקד את החומר הקשה במקטע המבחן, שלושה מודלים קטנים יותר של AI נדרשו לענות על השאלות: כל פריט שכלל לפחות מודל אחד שפתר אותו הוגדר כקל מדי לבחינה והועבר לאימון או לאימות. מומחה רפואי לאחר מכן עבר על מדגם סטרטיפיקאי של 150 שאלות, ואישר שרוב גדול מהן היו תקינות מבחינה רפואית ומנוסחות כראוי, עם אחוז קטן שסומנו כמיושנות או עמומות.
העמדת מודלים מובילים למבחן
בידו של MediQAl, המחקר העריך 14 מודלים שפתיים גדולים, בטווח שכולל מערכות מסחריות ידועות ועד מודלים בקוד פתוח שמותאמים לרפואה או לחשיבה שלב‑אחר‑שלב. כולם נבדקו בהגדרת "אפס‑דוגמאות" (zero‑shot), כלומר הונחו פשוט לענות מבלי הדרכה מותאמת למשימה. התוצאות מצביעות על דפוסים ברורים. ראשית, הביצועים גבוהים בעקביות בשאלות של זכירה פשוטה לעומת שאלות כבדות הסקה, בכל מודל ובכל סוג משימה. בממוצע, הדיוק בשאלות הסקה יורד בכמה נקודות בהשוואה לשאלות של הבנה, והפער גדול במיוחד עבור תשובות פתוחות. שנית, מודלים שאומנו במפורש על הסקה נוטים להציג ביצועים טובים יותר מאשר עמיתיהם ה"רגילים", במיוחד בשאלות הקשות ביותר, אך עדיין רחוקים מלהגיע לאמינות המצופה מרופאים מתרגלים. שלישית, ההצלחה משתנה במידה ניכרת בין התמחויות: נושאים כמו גנטיקה, דרמטולוגיה או חיידקאות מטופלים יחסית היטב, בעוד תחומים כגון פסיכיאטריה, אפידמיולוגיה, רפואת עבודה ומקרים פתוחים מורכבים נותרו מאתגרים.

מה המשמעות עבור מטופלים ומטפלים
MediQAl ממלא פער משמעותי על ידי הצעת מדד גדול ומסונן בקפידה שבוחן בינה רפואית בצרפתית ובעבור 41 התמחויות, באמצעות שאלות שנועדו לרופאים לעתיד ולא למכונות. הממצאים מראים שלמרות שמערכות מובילות לעיתים יכולות לזכור עובדות נכון ולפעמים להתאים לתשובות בסגנון מבחן, הן עדיין מתקשות כשהן מתבקשות להסיק מסקנות מתוך סיפורים קליניים מעודני ניואנסים, במיוחד מחוץ לאנגלית ובתחומים מסוימים. עבור מטופלים וספקי שירותי בריאות, המסר ברור: כלי ה‑AI הנוכחיים יכולים לשמש ככלים עוזרים אך אינם מוכנים להחליף שיפוט אנושי, ומגבלותיהם תלויות במידה רבה בשפה ובתחום ההתמחות. עבור חוקרים ומפקחים, MediQAl מספק ערכת מבחן ציבורית ושחיקה שניתן להשתמש בה כדי לעקוב אחרי ההתקדמות בפיתוח בינה רפואית בטוחה ושוויונית שעובדת בצרפתית באותה מידה כמו באנגלית.
ציטוט: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y
מילות מפתח: מענה על שאלות רפואיות, בינה מלאכותית בשפה הצרפתית, הסקת מסקנות קלינית, מודלים שפתיים גדולים, מבחנים רפואיים