Clear Sky Science · he
נקודת ציון בקנה מידה גדול להערכת מודלי שפה גדולים על מענה על שאלות רפואיות ברומנית
מדוע זה חשוב לבריאות וטכנולוגיה
אנשים רבים פונים היום לכלים מקוונים וצ׳אטבוטים לקבלת מידע רפואי, אך רוב המערכות הללו פועלות היטב באנגלית ומתמודדות עם קושי כשמדובר ברשומות רפואיות מקומיות. המאמר מטפל בפער הזה עבור רומניה, שבה רופאים כותבים סיכומי מקרים ארוכים ומורכבים ברומנית וזקוקים לעוזרים דיגיטליים מהימנים שיכולים לענות במהירות על שאלות על חולי סרטן. המחברים מציגים את MedQARo, משאב חדש שמאפשר לחוקרים לבדוק ולשפר באופן רציני מודלי שפה גדולים כדי שיעבדו טוב יותר על תיעוד קליני אמיתי ברומנית.
מאגר שאלות חדש שנבנה ממטופלים אמיתיים
הליבה של המחקר היא MedQARo, אוסף גדול מאוד של 105,880 זוגות שאלה–תשובה המקושרים ל־1,242 חולי סרטן. במקום לתרגם נתונים מאנגלית, הצוות התחיל מאפס עם סיכומי מקרים מקוריים ברומנית, בעיקר לסרטן השד והריאוֹת, וכן מספר סוגי גידולים נוספים. שבעה מומחים ורזידנטים באונקולוגיה השקיעו כמעט 3,000 שעות בקריאת המסמכים וכתיבת תשובות לשאלות רפואיות שעוצבו בקפידה. חלק מהשאלות הן כן/לא, אחרות קוראות לפרטים ספציפיים, וחלק דורשות שילוב רמזים כדי להסיק שלבים או לוחות זמנים של טיפול. כל נתוני המטופלים הוסרו מהם פרטים מזהים ואושרו על ידי ועדות אתיקה.

בדיקת בינה מלאכותית על שפה רפואית מקומית
באמצעות MedQARo, המחברים העריכו מספר משפחות של מודלי שפה גדולים, כולל שניים מכוונים לרומנית באופן כללי, אחד שנועד להתמודד עם טקסטים ארוכים במיוחד, ואחד שאומן על חומר רפואי באנגלית. הם השוו גם עם שני מודלים מסחריים חזקים שניגשו אליהם דרך APIs בתשלום. כל מודל קיבל לקרוא את השאלה וקטע מסיכום הקליני, ולאחר מכן ליצור תשובה. החוקרים בחנו לא רק התאמות מדויקות, אלא גם עד כמה המודלים לקחו מילות מפתח מרכזיות ועד כמה הם התמודדו עם ניסוח רומני גמיש, בעזרת ארבעה מדדי ניקוד שונים.
מודלים מכוילים עוקפים את הענקים "כפי שהם"
באופן כללי, מודלים שהופעלו "כמו שהם" הציגו ביצועים נמוכים על MedQARo, אפילו כאשר היו חזקים באנגלית או חשופים במעט לרומנית. בסיסים פשוטים שהמציאו תמיד את התשובה הנפוצה ביותר לעתים ענו כמעט כמו המערכות ללא התאמה (zero‑shot). עם זאת, ברגע שהחוקרים כיוונו את המודלים על מאגר הנתונים החדש, הביצועים קפצו באופן דרמטי. המערכת הטובה ביותר, מודל מותאם לרומנית בשם RoMistral‑7B, השיגה ציון F1 של כ־0.67 על סוגי סרטן ובתי חולים מוכרים, וניצחה בבירור את כל המודלים בקוד פתוח ובמסחריים. ובכל זאת, אף מנהיג זה עדיין ענה לא נכון על יותר משליש מהשאלות, מה שמדגים עד כמה המדד תובעני.

מבחן מתח של ההכללה בין מרפאות וסוגי סרטן
כדי לבדוק האם המערכות יוכלו להתמודד עם מצבים חדשים, הצוות בנה סט בדיקה קשה יותר ממרכז רפואי אחר ומסוגי סרטן שלא נראו במהלך האימון. בתרחיש חוצה‑תחום זה, ביצועי כל מודל ירדו, לעתים באופן חד, כאשר המודל המכוייל הטוב ביותר ענה נכון באופן ניכר פחות מחצי מהזמן. מודלים שאומנו על טקסטים ביומדיים באנגלית לא העבירו אוטומטית טוב לרשומות ברומנית, וגם מתן קטע ארוך יותר מהתיק הקליני לרוב לא עזר הרבה. למעשה, התמקדות בחלק הראשון של הסיכום פעמים רבות עבדה טוב יותר מאכלוס כל הרשומה הארוכה, מה שמרמז שיותר הקשר יכול לבלבל במקום להבהיר.
מה משמעות הדבר עבור בינה קלינית עתידית
לקריאה עממית, המסר המרכזי הוא שבניית בינה רפואית בטוחה ושימושית בשפות כמו רומנית דורשת יותר מאשר פשוט לחבר נתונים מקומיים לצ׳אטבוט גדול שממוקד באנגלית. מדדים ספציפיים לשפה שנבנו בקפידה כמו MedQARo חושפים גם את הפוטנציאל וגם את המגבלות של המערכות הנוכחיות. הם מראים שמודלים קטנים ופתוחים, כשהם מכוילים על נתונים מקומיים איכותיים, יכולים לעקוף מודלים כלליים גדולים יותר שרצים בענן. יחד עם זאת, הציונים המתונים, במיוחד בבתי חולים וסרטן חדשים, מזהירים שהכלים של היום אינם מוכנים להחליף את שיקול הדעת האנושי. במקום זאת, MedQARo מספק בסיס מוצק לדור הבא של עוזרים קליניים שיכולים לסייע לרופאים ברומניה לנווט ברשומות סרטן מורכבות תוך שמירה על בטיחות ופרטיות המטופלים במרכז.
ציטוט: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0
מילות מפתח: מענה לשאלות רפואיות, בינה מלאכותית בשפה הרומנית, רשומות קליניות של סרטן, מודלי שפה גדולים, מדד MedQARo