Clear Sky Science · he
מודלים מולטימודאליים לסיווג סרטן העור באמצעות טקסט קליני חופשי ותמונות דרמטוסקופיות
למה בדיקות עור חכמות יותר חשובות
סרטן העור נפוץ, אך כאשר הוא מתגלה בשלב מוקדם, רוב האנשים מסתדרים היטב. רופאים משתמשים כבר היום בצילומים מזוינים של שומות כדי להחליט אילו מהן מעוררות חשד. המחקר הזה שואל שאלה פשוטה עם משמעויות גדולות: אם מחשבים יכלו גם לקרוא את הערות הרופא על כל שומה, לא רק את התמונות, האם הם יוכלו לזהות סרטן העור בדיוק ובהוגנות גבוהים יותר?

תמונות יחד עם מילים מספרות סיפור שלם יותר
החוקרים בנו מאגר נתונים גדול מתוך מרפאות דרמטולוגיה שגרתיות בבריטניה. הוא כלל 5481 תמונות דרמטוסקופיות מזוינות מ-4538 מבוגרים, יחד עם פרטי מטופל בסיסיים כגון גיל וסוג עור, וארבעה סוגי רשומות קליניות. רשומות אלה כיסו כיצד הנגע נראה והשתנה עם הזמן, האם יש היסטוריה משפחתית של סרטן העור, רמת חשיפה לשמש של המטופל ומה החשיבה והתכנית של המנתח. כל מקרה סומן כידידותי (benign) או ממאיר (malignant), כאשר מקרים ממאירים אומתו בביופסיה במידת האפשר.
רמזים חבויים בתוך הרשומות הקליניות
שונה מנתוני סימון פשוטים, טקסט חופשי מאפשר לרופאים לתאר תכונות עדינות: שומה שהכהתה, נקודה שמדממת, או מטופל שעבד בחוץ שנים רבות. פרטים כאלה יכולים להיות בעלי ערך רב, אבל הם גם עלולים לחשוף את התשובה. רישומים רבים כוללים מה שהמחברים קוראים לשפה מנחה: ביטויים שמצהירים או מרמזים בחוזקה על האבחנה או הטיפול, כגון "קרצינומה תאי בסיס, הפנייה לביופסיה" או "אין צורך בטיפול." אם מודל למידת מכונה ייתרגל לקיצורי דרך אלה, הוא עשוי להיראות מדויק מאד על נתונים מהעבר בעוד שלמעשה ילמד מעט על איך לזהות סרטן מהתמונות או מתיאורים שמספקים המטופלים.
ללמד מחשבים להתעלם מקיצורי דרך
כדי להתמודד עם הבעיה הזו, הצוות תכנן מספר רמות של ניקוי טקסט. כללים פשוטים הסירו תחילה שמות מפורשים של מחלות עור והמילים "benign" ו-"malignant." לאחר מכן נעשה שימוש במודל שפה גדול לסינון עדין יותר. בהגדרה אחת, ביטויים אבחוניים מרכזיים ותכניות טיפול הוחלפו בתגיות נייטרליות כדי לאפשר למדוד כמה כל סוג משפט חיזק את הביצועים. בהגדרה המחמירה ביותר נשמרו רק פרטים עובדתיים שמטופל יכול לספק באופן סביר, כגון משך הופעת השומה או הרגלי חשיפה לשמש בעבר. הגישה הזו שאפה לקרב את הטקסט למה שמערכת הפונה למטופל עשויה לראות, במקום להסתמך על רמזים פנימיים של מומחים.

מה שהמודלים למעשה למדו
כאשר מודל המחשב נשען רק על תמונות, הוא ביצע היטב, אך הוספת רשומות לא מסוננות שיפרה אותו משמעותית. מדד הדיוק המרכזי, השטח מתחת לעקומת התכנות הממיידת (AUROC), עלה מ-0.909 עבור תמונות בלבד ל-0.970 עבור תמונות בתוספת רשומות גולמיות. גם כאשר הוסרו כל שפות האבחון הברורות, שילוב תמונות עם טקסט שסונן בקפידה עדיין הגיע ל-AUROC של כ-0.948, גבוה יותר מכל מקור בפני עצמו. ניסויים עם ביטויים מתויגים הראו כי פעולות פשוטות כגון "הפניה לבית חולים" שידרו כמעט אותו מידע כמו תווית סרטן מפורשת, מה שאישר שרבים מהרשומים נושאים הטיה מובנית חזקה. המחברים בחנו גם ביצועים לפי קבוצות גיל וקטגוריות גוון עור ומצאו רמות אי-הוגנות יחסית נמוכות, הן במודל המתבסס רק על תמונות והן במודלים המולטימודאליים המלאים.
מה משמעות הדבר לבדיקות עור בעתיד
עבור לא-מומחים, המסקנה המרכזית היא שהערות הרופא מכילות רמזים אמיתיים ושימושיים שיכולים לעזור למחשבים לתמוך בהחלטות לגבי סרטן העור, אך יש לטפל בהן בזהירות. אם למודלים יינתן רשות לקרוא רשומות לא מסוננות, הם עלולים ללמוד לחקות את ניסוח הרופאים במקום לזהות בעצמם שומות בסיכון. המחקר מראה שבעזרת ניקוי מושכל של הטקסט ושילובו עם תמונות ופרטי מטופל בסיסיים, ניתן לשפר את הדיוק תוך הפחתת הטיה נסתרת. עם הזמן, כלים מולטימודאליים כאלה עשויים לסייע לרופאי הקהילה לבצע הפניות טובות יותר ולהקצר המתנה לטיפול מומחה, ובמקביל להניח את היסוד למערכות בטוחות, ערות-טקסט שעשויות יום אחד לסייע ישירות למטופלים.
ציטוט: Watson, M., Winterbottom, T., Hudson, T. et al. Multimodal models for skin cancer classification using clinical freetext and dermatoscopic images. Commun Med 6, 277 (2026). https://doi.org/10.1038/s43856-026-01456-2
מילות מפתח: סרטן העור, למידת מכונה, דרמטולוגיה, רשומות קליניות, דימות רפואי