Clear Sky Science · he

GPT-4o לקביעת בדיקות מעקב אוטומטיות על בסיס דוחות רדיולוגיים משגרת הקליניקה

· חזרה לאינדקס

מדוע סריקות מעקב חכמות חשובות

כשמטופל עובר סריקת CT או MRI, הסיפור אינו מסתיים בתמונות בלבד. הרדיולוגים חייבים להחליט גם האם ומתי יש לבצע סריקות מעקב כדי לעקוב אחר גידולים, לחקור מוקדים חשודים או לאשר שטיפול עובד. החלטות אלה עשויות להיות ההבדל בין גילוי מוקדם של מחלה לבין חשיפת מטופלים לקרינה מיותרת, עלות ולחץ מיותר. במחקר זה נשאלה שאלה עכשווית: האם מערכת בינה מלאכותית מודרנית, GPT-4o, יכולה לסייע ליישר קו בהחלטות מעקב כך שמטופלים יקבלו טיפול עקבי המבוסס על הנחיות?

Figure 1
Figure 1.

בעיה של מסרים מעורבים

אגודות מקצועיות מפרסמות המלצות מפורטות לגבי מתי ואיך יש לחזור על הדימות עבור סוגי סרטן וממצאים אקראיים רבים. ובכל זאת, בפועל היומיומי רדיולוגים לעתים קרובות אינם מסכימים ביניהם לגבי מעקב. חלקם נוטים להזמין סריקות חוזרות במהירות; אחרים נזהרים יותר. מחקרים קודמים הראו כי הסבירות להמליץ על הדמיה נוספת יכולה להשתנות כמעט פי שבע בין רדיולוגים הבוחנים מקרים דומים. תכניות רבות שמוצעות אינן תואמות במלואן את ההנחיות מפורסמות, מה שמוביל חלק מהמטופלים לעבור סריקות מיותרות בעוד אחרים עלולים לפספס בדיקות בזמן. נוף לא אחיד זה מניע פיתוח כלים שיכולים לדחוף בעדינות את ההתנהלות לכיוון החלטות מבוססות ראיות ועקביות יותר.

איך המחקר הוגדר

החוקרים בחנו את GPT-4o, מודל שפה גדול שנועד להבין ולייצר טקסט, על 100 מקרים רדיולוגיים אמיתיים מארבע מרכזים בשתי בתי חולים גרמניים. כל המקרים כללו מבוגרים שעברו סריקות CT או MRI לשאלות הקשורות בסרטן בארבעה אזורים מרכזיים: ראש וצוואר, כבד, ריאה ולבלב. עבור כל מקרה המודל קיבל את הדוח הכתוב המלא, כולל היסטוריה רפואית, הממצאים בסריקה ומסקנת הרדיולוג. מ- GPT-4o נדרשה משימה אחת: על בסיס המידע הזה להציע את שיטת הדימות המדויקת (למשל CT או MRI) ואת מועד הסריקה הבאה. מתמחה ברדיולוגיה ורדיולוג מוסמך ומנוסה ענו על אותה שאלה עבור כל מקרה.

מדידת איכות מול ההנחיות

כדי לשפוט את ההמלצות הללו, שני רדיולוגים בכירים, אשר לא ידעו מי הציע כל תשובה, השוו את כל התשובות מול הנחיות בינלאומיות מרכזיות של אגודות אונקולוגיה ורדיולוגיה. הם דירגו כל הצעה בארבעה היבטים: האם כל הממצאים הרלוונטיים שמחייבים מעקב כוסו, האם טכניקת הדימות הנבחרת הייתה מתאימה, עד כמה מדויק המועד המוצע, ודירוג איכות כללי בסולם של חמישה נקודות. בפועל ביקשו המומחים לדעת: האם התכנית שומרת על בטיחות המטופל, פועלת לפי הכללים ומונעת סריקות מיותרות?

Figure 2
Figure 2.

כיצד ה-AI השווה לבני אדם

על פני כל 100 המקרים, איכות המעקב הכוללת של GPT-4o השוותה לזו של הרדיולוג המנוסה ועקפה את המתמחה. המדד החציוני של איכות גלובלית של המודל היה 4 מתוך 5, זהה במידה רבה למומחה וטוב משמעותית מהחוקר המתמחה. GPT-4o קבע את המועד במדויק או בחלקו נכון ב-96% מהמקרים, עוקף את המתמחה (75%) ומעט עולה על המומחה (90%). הוא גם ייצר את מספר השגיאות הפוטנציאלית המזיקות במועדים הנמוך ביותר. המודל כיסה את כל הממצאים שדרשו מעקב ב-92% מהמקרים, דומה למתמחה ובמדד זה עדיף על המומחה. בבחירת סוג הסריקה המתאים, GPT-4o הופיע קרוב לשוויון עם שני הקוראים האנושיים. תחומי החוזק שלו היו דימות ריאה, כבד ולבלב, שבהם מסלולי הנחיות מוסדרים היטב; הביצועים היו מעט נמוכים יותר, אצל כל הקוראים, באזור הראש והצוואר המורכב יותר.

מה משמעות הדבר עבור הטיפול העתידי

המחקר מצביע על כך ש-GPT-4o יכול לשמש כשותף אמין בהחלטות דימות מעקב, ברמה המשוערת של רדיולוג מנוסה ובעיקר טובה יותר ממתמחה בכמה היבטים. בשימוש ככלי תמיכה בהחלטה ולא כהחלפה, מערכת כזו עשויה לסייע בהפחתת סריקות מיותרות, לקצר עיכובים במעקב חיוני ולהקל על העומס במחלקות רדיולוגיה עמוסות, תוך שמירה על קרבה להנחיות המקובלות. עם זאת, המחברים מדגישים שעל המומחים האנושיים להישאר אחראים: המודל עדיין עלול לפרש דוחות באופן שגוי, תהליכי קבלת ההחלטות הפנימיים שלו אינם שקופים, והמחקר כלל רק 100 מקרים הקשורים לסרטן משתי מרכזים. ניסויים פרוספקטיביים גדולים יותר ופריסות מאובטחות ומקומיות יהיו נחוצים לפני שניתן לשלב כלים אלו בבטחה בשגרות קליניות יומיומיות.

ציטוט: Kaya, K., Müller, L., Persigehl, T. et al. GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine. Sci Rep 16, 12587 (2026). https://doi.org/10.1038/s41598-026-40317-9

מילות מפתח: מעקב רדיולוגי, מודלים שפתיים גדולים, תמיכה בקבלת החלטות רפואיות, דימות אונקולוגי, GPT-4o