Clear Sky Science · he

אימות תחזיות קונפורמליות בסיווג אי-תקינות צוואר הרחם

· חזרה לאינדקס

למה חשוב לשפר את הסקר לסרטן צוואר הרחם

סרטן צוואר הרחם עדיין גובה את חייהם של מאות אלפי נשים מדי שנה, במיוחד במדינות שבהן רופאים ומומחים במעבדות הם נדירים. מערכות בינה מלאכותית (AI) הבוחנות דגימות תאים צוואריות במיקרוסקופ יכולות לעזור למלא פער זה, אך המערכות הקיימות מדברות לעתים קרובות בביטחון יתר. בדרך כלל הן נותנות תווית אחת כ"ניחוש הטוב ביותר", גם כאשר התמונה קשה לסיווג באמת. המחקר הזה שואל שאלה פשוטה אך חיונית: כשה-AI מצהירה שאינה בטוחה, האם חוסר הוודאות הזה באמת תואם למה שמומחי אנוש חושבים?

ממענה יחיד לרשימות קצרות של אפשרויות

רוב כלי ה-AI הרפואיים לניתוח תמונות Pap משקפים את אופן כתיבת דוחות מעבדה סטנדרטיים: הם בוחרים קטגוריה אחת כגון "נורמלי", "שינויים בדרגה נמוכה" או "שינויים בדרגה גבוהה" ומצרפים הסתברות. אבל ציוני הסתברות אלה יכולים להיות מטענים מדויקים באופן מטעה. השיטה הנבדקת במאמר זה, הנקראת תחזית קונפורמלית, לוקחת נתיב שונה. במקום תשובה סופית אחת, היא מפיקה סט קטן של תוויות סבירות עבור כל אריח תמונה מהשקית. מקרה שהמערכת בטוחה בו מאוד עשוי לקבל תווית יחידה, בעוד שמקרה בעייתי יקבל כמה תוויות. מבחינה עקרונית, זה אמור לתת לרופאים תמונה כנה יותר לגבי מה שהמודל יודע ומה שאינו יודע.

Figure 1
Figure 1.

בניית תמונה עשירה של חילוקי דעות מומחים

כדי לבדוק עד כמה הרעיון הזה עובד בעולם האמיתי, החוקרים הרכיבו מאגר מפורט מיותר מ-300 שקיות Pap שנאספו בבית חולים כפרי בקניה. מערכת AI קיימת סימנה תחילה אזורים שסביר שיכילו תאים בלתי תקינים, ואז אזורים אלו נחתכו לאריחים קטנים. שישה מומחי ציטולוגיה מנוסים השתמשו בפלטפורמת רשת מותאמת כדי לתייג אלפי אריחים אלה. עבור סט מבחן מרכזי, ארבעה מומחים תייגו באופן עצמאי את אותם אריחים. זה יצר לא רק "אמת קרקע" בודדת לכל אריח, אלא דפוס מלא של הסכמה וחוסר הסכמה בין המומחים, שתוך כדי כך תיאר אילו תמונות ברורות ואילו טבעית עמומות.

בדיקת דרכים שונות לביטוי אי-וודאות

הצוות אימן שלושה מודלים עמוקים פופולריים לזיהוי ארבע קטגוריות: נורמלי, שינויים בדרגה נמוכה, שינויים בדרגה גבוהה, וממצא ארטיפקטי. מעל כל מודל הם יישמו שלוש וריאציות של תחזית קונפורמלית השונות ברוחב הנטייה של מערכי התוויות שהן מפיקות. לאחר מכן הם העריכו ביצועים בשני אופנים משלימים. ראשית, הם השתמשו במדדי כיסוי סטנדרטיים ששואלים פשוט: האם סט התוויות החזוייתי כולל את תווית הקונצנזוס של המומחים לפחות באחוז נבחר מהזמן? שנית, הם הציגו מדדי הסכמה שמשווים כל סט תחזיות לרשימת התוויות המלאה שניתנה על ידי כל המומחים עבור אותו אריח, ומעניקים נקודות במקרים שבהם רשימת הקיצור של ה-AI תואמת את טווח הדעות של המומחים.

מתי מדדים סטנדרטיים מציירים תמונה ורודה מדי

על פי מדדי הכיסוי המקובלים, שיטות קונפורמליות נראו מרשימות: הן כמעט תמיד כללו את תווית הקונצנזוס של המומחים, במיוחד כאשר הותר להן להוציא סטים מעט גדולים יותר. אך מבחני ההסכמה המחמירים סיפרו סיפור שונה. התאמות מדויקות בין סטי התוויות של ה-AI לבין התוויות המשולבות של המומחים היו רק בערך בכ-שליש מהמקרים, ללא תלות בשיטה. גישות מסוימות העדיפו סטים קטנים ומדויקים שפספסו תוויות שמומחים ראו כסבירות, בעוד שאחרות ייצרו סטים גדולים יותר שכללו תוויות לא סבירות לצד הנכונה. השיטות עבדו היטב במעקב אחר עמימות מובנית: כאשר המומחים סיכמו על חילוקי דעות גדולים יותר, הסטים הקונפורמליים נוטו להתרחב. עם זאת, הן היו הרבה פחות אמינות בזיהוי תמונות שבאמת לא השתייכו להתפלגות האימון, כגון שקיות Pap רעשניות מאוד או תאי מוח עצם מסוג רקמה שונה, והתנהגות זו הייתה תלויית-מודל בקושי רב.

Figure 2
Figure 2.

מה משמעות הדבר לשימוש במציאות

לרופאים השוקלים כלים מבוססי AI כתמיכה, המסקנה העיקרית היא שאומדני אי-וודאות אינם אמינים אוטומטית רק משום שהם מגיעים עם הבטחות מתמטיות. תחזית קונפורמלית יכולה להבטיח שהתווית האמיתית נמצאת לעתים קרובות במקום כלשהו בסט החזוי, אך המחקר הזה מראה שהתוויות הנוספות בסט עשויות שלא להתאים לציפיות אנושיות ואף להסיח את הדעת מהאפשרויות הרלוונטיות ביותר. המחברים טוענים שבהקשרים בעלי סיכון גבוה כגון סקרי סרטן, פלטי AI חייבים להישפט לא רק על שאלת ה"נכונות" הטכנית, אלא גם על האם הם מציגים מידע בצורה ממוקדת וקולעת מבחינה קלינית. עבודת העתיד תצטרך לשפר הן את המודלים והן את כלי אי-הוודאות כדי שרשימות האבחנות הקצרות שלהם ייראו הגיוניות למומחים כמו שהן מהנות לאיזון מתמטי.

ציטוט: Hagos, M.T., Suutala, A., Bychkov, D. et al. Validation of conformal prediction in cervical atypia classification. Sci Rep 16, 9649 (2026). https://doi.org/10.1038/s41598-026-44850-5

מילות מפתח: סקר לסרטן צוואר הרחם, אי-וודאות בבינה רפואית, תחזית קונפורמלית, ציטולוגיה דיגיטלית, זיהוי נתונים מחוץ להתפלגות