Clear Sky Science · he

השוואת ביצועים של מודלים שפתיים גדולים בהערכת ידע על תרפיית לכידת נייטרונים בבורון

· חזרה לאינדקס

מורים חכמים לסוג חדש של קרינה נגד סרטן

תרפיית לכידת נייטרונים בבורון, או BNCT, היא סוג מתפתח של טיפול בקרינה שמטרתו להשמיד גידולים תוך שמירה על רקמות בריאות סמוכות. ככל שטיפול מורכב זה מתרחב ממעבדות מחקר לבתי חולים, רופאים ומתלמדים צריכים לרכוש כמות גדולה של ידע חדש ומיוחד. המחקר הזה בוחן שאלה עכשווית: האם הצ’אטים של בינה מלאכותית הפופולריים כיום יכולים לסייע בהוראה ותמיכה ב‑BNCT, ואם כן — עד כמה הם אמינים?

מה מבדיל את ה‑BNCT מקרינה רגילה?

ה‑BNCT פועל באופן שונה מאוד מהטיפולים הסטנדרטיים בקרני רנטגן או פרוטונים. מטופלים מקבלים תרופות שמכילות צורת בורון מיוחדת שמצטברת בתוך תאי הגידול. כאשר התאים הללו נחשפים מאוחר יותר לקרן של נייטרונים, אטומי הבורון עוברים תגובה גרעינית זעירה שמשחררת חלקיקים בעלי טווח קצר, והורגת את התא הסרטני מבפנים בעוד שהיא משאירה את הרקמה הסמוכה במידה רבה ללא פגע. הגישה הממוקדת מאוד הזו מבטיחה במיוחד לטיפול בגידולים שקשה לטפל בהם או בעלי חמצן מועט. עד לא מזמן, ה‑BNCT הסתמך על כורים גרעיניים כמקורות נייטרונים, מה שהגביל את השימוש הקליני בו. אישור מכונות BNCT מבוססות מאיצים ביפן ב‑2020, ומרכזים חדשים הפועלים כעת במדינות כמו סין, הפכו את ה‑BNCT לאופציה ריאלית עבור יותר מטופלים — ויצרו צורך דחוף בהכשרה ותעודה ממוקדות.

Figure 1
Figure 1.

מבחן לארבע בינות מלאכותיות מובילות

כדי לבחון עד כמה צ’אטים כלל‑מטרתיים מתמודדים עם נושאי BNCT, החוקרים בנו מבחן של 47 שאלות שכולל רעיונות בסיסיים, מחקרים עדכניים, פרקטיקה קלינית ומשימות חישוב והיסק. השאלות נכתבו בסינית ובאנגלית וכללו עובדות פשוטות (כמו הגדרות) ובעיות תובעניות יותר שדרשו היגיון או עבודה מספרית. ארבע משפחות עיקריות של בינה מלאכותית — המיוצגות על ידי מערכות נפוצות מחברות שונות — נבדקו בכל אחת מחמש תקופות זמן נפרדות, בשתי שפות ובשתי דרכי ניסוח (שאלות ישירות פשוטות ושאלות העטופות בתרחיש קליני קצר). מומחי טיפול בסרטן נתנו ציון לכל תשובה בהתאם למפתח תקני, והצוות גם עקב אחר תופעת הווידוי בחוסר ידיעה מצד ה‑AIs כאשר הן אמרו דברים כמו «אני לא יודע».

מי ענה הכי טוב, ובאילו סוגי שאלות?

באופן כללי, שתי משפחות המודלים הופיעו בביצועים טובים באופן ברור לעומת השתיים האחרות. המערכת החזקה ביותר הגיעה לדייקנות של כ‑73%, והשנייה הטובה כ‑70%, בעוד שהמודלים הנותרים קיבלו ציונים סביב 62% ו‑56%. מעניין שהמבצעים המובילים לא הצטיינו רק בעובדות שנזכרו בעל פה. הם היו טובים משמעותית בשאלות שדרשו היסק מאשר במשימות זיכרון פשוטות, מה שמעיד שעליהם יכולת יחסית חזקה למשימות חשיבה רב‑שלבית, כגון חישובי מינונים או בעיות בסגנון תכנון, בתחום הרפואי המצומצם הזה. אחד המודלים הציג כמעט ציונים זהים על פריטי עובדה והיסק, בעוד שאחר נותר מאחור בסך הכל אף על פי שעלה במעט בביצועי ההיסק לעומת העובדות.

עדכונים, שפות ונכונות לומר «אני לא יודע»

כיוון שמערכות ה‑AI מתעדכנות תדיר, החוקרים גם בחנו כיצד הביצועים השתנו במהלך חמש סבבי מבחן שהתקיימו מסוף 2023 עד אמצע 2025. שדרוגים מהותיים של גרסה נטו להביא קפיצות ברורות בדיוק, בעוד ששינויים קלים בתוך אותה גרסה עשו מעט הבדל. משפחה אחת טיפסה מתחת ל‑60% ליותר מ‑80% דיוק לאורך הזמן, מה שמדגיש כמה מהר הטכנולוגיה מתקדמת. באופן מפתיע, האם השאלות נשאלו בסינית או באנגלית, או אם הוצגו ישירות לעומת עטופות בתפקיד משחקי, השפיעו רק במידה מועטה בהשוואה לחוזקות הטבועות בכל מודל. הבדלים בולטים יותר נראו באופן שבו המערכות היו כנות כשהתבלטו כשגויות. חלק מהמונים הודות חוסר ודאות כמעט באחת מכל חמש תשובות שגויות, בעוד שאחרות כמעט ולא עשו זאת, לעתים מציעות תשובות בטוחות אך שגויות במקום.

Figure 2
Figure 2.

מה המשמעות לרופאים, לסטודנטים ולמטופלים

המסקנה היא שמערכות הצ’אט הכלל‑מטרתיות הטובות של היום כבר יכולות לספק הסברים מדויקים במידה סבירה ושאלות תרגול על BNCT, מה שהופך אותן לעוזרות מבטיחות בחינוך וללמידה עצמית. עם זאת, אף מערכת אינה עדיין אמינה במענה נכון על כל שאלות ה‑BNCT, וסגנונות הביטוי — או ההסתרה — של חוסר הוודאות שלהם שונים באופן שיש לו משמעות לבטיחות. כרגע, כלים אלה טובים כעוזרים חכמים שיכולים לתמוך, אך לא להחליף, שיקול דעת מקצועי. המחברים טוענים שמודלים ייעודיים ממוקדי BNCT, יחד עם תקנים ברורים לאופן השימוש בכלים כאלה במרפאות ובכיתות, יהיו נחוצים לפני שה‑AI יוכל לתפוס תפקיד אמין בחזית טיפול סרטן כל כך מיוחד זה.

ציטוט: Shen, S., Wang, S., Gao, M. et al. Performance comparison of large language models in boron neutron capture therapy knowledge assessment. Sci Rep 16, 5321 (2026). https://doi.org/10.1038/s41598-026-36322-7

מילות מפתח: תרפיית לכידת נייטרונים בבורון, קרינה בסרטן, חינוך רפואי, בינה מלאכותית, מודלים שפתיים גדולים