Clear Sky Science · he

סיווג תגובת גידול אוטומטי לפי RECIST באמצעות מודלים שפתיים גדולים עם הנחיות פומפט

· חזרה לאינדקס

מדוע זה חשוב לאנשים עם סרטן

כשמישהו מטופל בסרטן, רופאים מסתמכים על דוחות סריקה כדי להחליט האם טיפול עובד, כדאי לשנותו או להפסיקו. קריאת וסיכום הדוחות האלה גוזלת זמן ועלולה להיות רגישה לשגיאות קטנות. המחקר בוחן האם מודל שפה גדול, סוג של בינה מלאכותית שמבינה טקסט, יכול לסייע בבטחה לרופאים למיין דוחות סריקה לקטגוריות תגובה סטנדרטיות תוך שמירה על נתוני המטופל במסגרת בית החולים.

איך רופאים בדרך כלל עוקבים אחרי שינויים בגידול

באונקולוגיה משתמשים בסריקות CT כדי לבדוק איך גידולים מגיבים לטיפול. רופאים לעתים קרובות נוקטים במסגרת חוקים שנקראת RECIST, שמקבצת את מצבו של המטופל לקטגוריות כמו תגובה שלמה, תגובה חלקית, מחלה יציבה, התקדמות המחלה או קו בסיס לפני תחילת הטיפול. למרות שרבים מבתי החולים משתמשים בתבניות חצי־מובנות לדוחות אלה, השיפוט הסופי לגבי התגובה לעתים קרובות נכתב כטקסט חופשי. משמעות הדבר היא שמומחה אנושי חייב לפרש מדידות, להשוות אותן לסריקות קודמות ולתרגם הכל לאחת מהקטגוריות הסטנדרטיות — תהליך שיכול להיות מייגע ולפעמים לא עקבי.

Figure 1. בינה מלאכותית בית חולים לא מקוונת קוראת דוחות סריקות CT וממירה אותם לקטגוריות תגובה פשוטות לרופאים.
Figure 1. בינה מלאכותית בית חולים לא מקוונת קוראת דוחות סריקות CT וממירה אותם לקטגוריות תגובה פשוטות לרופאים.

מה החוקרים ביקשו מהמחשב לעשות

הצוות בבית חולים אוניברסיטאי בגרמניה בדק האם מודל שפה כללי, LLaMA 3.3 עם 70 מיליארד פרמטרים, יוכל לקרוא דוחות CT רדיולוגיים אמיתיים של חולי סרטן ולהקצות את קטגוריית ה-RECIST הנכונה בלי אימון נוסף על נתונים מקומיים. הם עבדו לחלוטין במצב לא מקוון בתוך התשתית המאובטחת של בית החולים כך שלא יצאו ממנו פרטי מטופלים. לפני שהמודל ראה את הדוחות, תוויות התגובה המקוריות הוסרו, אך כל המדידות וערכי הייחוס נשארו כך שהמערכת יכלה להשוות גדלי גידול נוכחיים לקווים בסיס קודמים או לגודל הקטן ביותר שנמדד.

דרכים שונות להנחות את ה-AI

החוקרים ניסו שלוש דרכים להגיד למודל מה לעשות, המכונות אסטרטגיות הנחיה. בגישת ה-zero-shot המודל קיבל פשוט את הדוח והוראה קצרה לפלט אחת מחמש הקטגוריות. בגישת ה-few-shot הם הראו למודל כמה קטעי דוחות לדוגמה יחד עם הקטגוריה הנכונה, ולימדו אותו באמצעות הדגמה. בגישת ה-chain-of-thought בקשו מהמודל להסביר את היסקיו שלב־אחר־שלב בשפה פשוטה לפני שיציין קטגוריה סופית, ושילבו מספר ריצות הסקה עצמאיות כדי להגיע להחלטת רוב. על פני 142 דוחות מדדו כמה פעמים ה־AI התאים למומחים האנושיים באמצעות דיוק וציון סיווג סטנדרטי.

עד כמה המערכת התיישבה עם הקוראים האנושיים

אסטרטגיית ה-chain-of-thought הופיעה כטובה ביותר, וסיווגה נכונה בערך ארבע מתוך חמש דוחות בסך הכל והשיגה את האיזון הגבוה ביותר בין זיהוי חיוביים אמיתיים לבין הימנעות מאלarme שגויים. היא הייתה טובה במיוחד בהבדלה בין תגובה חלקית למחלה יציבה — שתי קטגוריות שלעיתים מתבלבלים ביניהן — ושיפרה ביצועים בתוצאות נדירות יותר כמו תגובה שלמה. ההנחיה ה-zero-shot כבר הראתה ביצועים מפתיעים, לעתים טובה יותר מהוספת כמה דוגמאות, מה שמרמז שהניסוח של ההוראות יכול להיות חשוב יותר מאשר הוספת דוגמאות אימון. ההנחיה ב-few-shot עזרה בחלק מהקטגוריות הקשות אך גם יכלה להכניס טעויות חדשות כאשר סט הדוגמאות הקטן לא השתקף במלואו במגוון הדוחות האמיתי.

Figure 2. ה-AI עובר שלב־שלב על דוח רדיולוגי, מסיק לגבי שינויים בגידול ומקצה אחת ממספר תוצאות תגובה המוסמנות בצבעים.
Figure 2. ה-AI עובר שלב־שלב על דוח רדיולוגי, מסיק לגבי שינויים בגידול ומקצה אחת ממספר תוצאות תגובה המוסמנות בצבעים.

מה מתוך השגיאות והמגבלות מתגלה

בלימוד מטריצות הבלבול, שמראות אילו קטגוריות המערכת נטתה לבלבל, המחברים מצאו ששיטת ה-chain-of-thought הפיקה פחות שגיאות שיטתיות ודפוס שהזכיר היגיון קליני זהיר. עם זאת, המודל עדיין התקשה במצבים שוליים שבהם הטקסט לא הבחין בבירור בין סריקת התחלה לסריקה מאוחרת ללא גידול נראֶה. המחקר השתמש בדוחות ממוסד יחיד שעבד לפי תבניות מובנות, ולכן התוצאות עשויות להיות שונות בבתי חולים עם סגנונות כתיבה חופשיים יותר. העבודה התמקדה בדוח אחד בכל פעם ולא שילבה עדיין היסטוריות ארוכות על פני ביקורים מרובים, שנדרשות לכללים פורמליים מסוימים של ניסויים.

מה זה עלול לציין לגבי טיפול בסרטן בעתיד

לחולה מן השורה, המסר המרכזי הוא שמערכת קוראת־טקסט יכולה לסייע לרדיולוגים על ידי בדיקה כפולה האם המסקנות הכתובות בדוח ה־CT מתאימות למספרים ולכללים שמנחים החלטות טיפול בסרטן. הרצת המערכת במצב לא מקוון מגנה על פרטיות המטופל ובאותו זמן מציעה כלי מדרגי שיכול להפחית עבודת יד ולהצביע על סתירות. המחברים מדגישים שמודלים כאלה צריכים לתמוך ולא להחליף את הרופאים, וכדאי לאמתם בבתי חולים נוספים ולשלבם עם בדיקה אנושית. אם יפותחו בזהירות, מערכות כאלו יכולות לעזור להבטיח שהסיפור המובא בדוח הסריקה יתיישב ביתר אמינות עם העובדות בתמונות והסטנדרטים שמנחים את הטיפול.

ציטוט: Mergen, M., Busch, F., Sauter, A.P. et al. Automated RECIST tumor response classification through prompt-guided large language models. Sci Rep 16, 16433 (2026). https://doi.org/10.1038/s41598-026-54979-y

מילות מפתח: בינה מלאכותית ברדיולוגיה, תגובה של הגידול, RECIST, מודלים שפתיים גדולים, דיווח אונקולוגי