Clear Sky Science · he
דיוק אבחוני, הוגנות ויישום קליני של בינה מלאכותית לסקר סרטן השד: תוצאות של מחקרי ישימות טכנית רב‑מרכזיים רטרוספקטיביים ופרוספקטיביים
סקר חכם יותר לנשים בחיי היום‑יום
סקרי סרטן השד מצילים חיים, אך הם גם מעמיסים על מערכות הבריאות ועלולים לפספס סרטן או לגרום לאזעקות שווא מעוררות לחץ. המחקר הזה שואל שאלה פשוטה עם השלכות רחבות: האם תוכנית בינה מלאכותית (AI) יכולה לסייע בבטחה בקריאת ממוגרפיות בתוכנית הסקר הלאומית של בריטניה, לתפוס יותר מקרים מסוכנים תוך הקלת העומס על מומחים עסוקים — ובעשייה זו לפעול בצורה הוגנת עבור נשים מרקעים שונים?

איך הסקר עובד היום
במדינות רבות, ביניהן הממלכה המאוחדת, מזמינים נשים בגיל 50–70 לממוגרפיות שגרתיות. בבריטניה, כל בדיקה נקראת בדרך‑כלל באופן עצמאי על‑ידי שני מומחים אנושיים; אם הם חלוקים, פאנל בוחן את המקרה. מערכת הקריאה הכפולה נועדה להיות בטוחה, אך היא גוזלת זמן ותלויה בזמינות קוראים מיומנים — דבר שרבים ממערכות הבריאות מתקשות לספק. כלים ממוחשבים מוקדמים הציעו עזרה מוגבלת ולעתים הוסיפו רעש במקום בהירות, ולכן הרשויות דרשו ראיות חזקות לפני אמון בבינה מלאכותית מודרנית בתוך תוכניות לאומיות.
להעמיד את ה‑AI למבחן במרפאות אמיתיות
החוקרים בדקו את מודל הממוגרפיה המעודכן של Google בשתי שלבים מרכזיים במסגרת שירות הבריאות הלאומי של בריטניה. ראשית, הם הריצו את המערכת על כמעט 116,000 בדיקות סקר מן העבר מחמישה אזורים שונים, ומעקב אחר נשים ביותר משלוש שנים כדי לראות אילו סרטן התגלו בפועל. הם השוו את ביצועי ה‑AI לאלה של הקורא האנושי הראשון, הקורא השני וההחלטה הסופית של הפאנל. בשלב שני, התקינו את ה‑AI בשתיקה ב‑12 אתרי סקר ונתנו לו לעבד בזמן אמת למעלה מ‑9,000 בדיקות חדשות — ללא השפעה על הטיפול — כדי לחקור כיצד הוא מתנהל בפרקטיקה היומיומית וכיצד יש לכוונן את ההגדרות שלו.
מה ה‑AI ראה — ומה הוא תפס
במאגר הנתונים הרטרוספקטיבי הגדול, ה‑AI היה רגיש יותר מהקורא האנושי הראשון: הוא זיהה יותר מקרי סרטן באופן כללי תוך שמירה על שיעור אזעקות שווא בתוך מרווח בטיחות שקדם לו. אם ישמש כקורא אחד בתוך זרימת העבודה של קריאה כפולה, המערכת היתה מעלה את שיעור גילוי הסרטן מקרוב ל‑7.5 לכ‑9.3 מקרים לכל 1,000 נשים, והיא סומנה נכון באחת מארבעה מקרים של סרטן שהתפספסו במקור ונתגלו מאוחר יותר, בין אם בין סריקות ובין אם בביקור השגרתי הבא. השיפורים היו בולטים במיוחד אצל נשים המגיעות לסקר הראשון שלהן — בדרך‑כלל הקבוצה הקשה ביותר לפירוש כיוון שאין תמונות קודמות. בביקורים ראשוניים אלה ה‑AI גם החזיר פחות נשים לבדיקה חוזרת ובו־זמנית גילה במעט יותר מקרי סרטן, בעיקר גידולים חודרניים שהם המסוכנים ביותר.
הוגנות, עומס עבודה ומכשולים מעשיים
הצוות בדק בקפידה האם ה‑AI מטפל באופן שווה בקבוצות שונות של נשים. בגיל, בצפיפות שד, במעמד הסוציו‑אקונומי ובנתוני אתניות המוגבלים שהיו זמינים, לא נצפו סימנים עקביים להטיה מזיקה: הרגישות והספציפיות נשארו בתוך מרווחים צפופים בהשוואה לקוראים האנושיים, אם כי בחלק מתתי‑הקבוצות הקטנות ביותר היה חוסר ודאות רחב. הם גם סימולצי כיצד שימוש ב‑AI כקורא השני ישנה את העומס. מספר הקריאות האנושיות לפני סקירת הפאנל יכול היה לרדת כמעט בחצי, ובכך לקצץ את זמן הקורא בכ‑שליש, למרות שיותר מקרים היו מועברים לפאנל. בשלב הניסיוני החי, ה‑AI סיפק תוצאות בתוך דקות — הרבה יותר מהר מקריאה אנושית שגרתית — אך הצוות גילה שינוי במראה התמונות האחרונות לעומת נתוני האימון הישנים. סף פעולה התחלתי היה רגיש מדי וגרם לשיעורי זימון גבוהים יותר, ולכן נדרש לכוונן אותו כלפי מטה באמצעות נתונים מקומיים עדכניים.

בניית מערכת סקר מוכנה ל‑AI
מעבר לדיוק, המחקר חשף חסמים מעשיים לפריסה בטוחה. מרכזי סקר רבים עדיין מסתמכים על טפסי נייר ותוכנות ישנות שאינן יכולות לאחסן באופן אוטומטי תוצאות AI או להסביר מדוע בדיקה הוזמנה מחדש — תכונות שהרשויות המפקחות והרופאים צריכים. המחברים טוענים שזרימות עבודה דיגיטליות ומוּענדות באופן מלא וסטנדרטיזציה של תהליכים ואיסוף טוב יותר של נתונים דמוגרפיים יהיו קריטיים לניטור הביצועים וההוגנות לאורך זמן. הם מדגישים גם שספי ה‑AI אינם ניתנים ל"הגדרה ושכחה": ציוד הדימות, התנהגות הקוראים ותמהיל האוכלוסייה משתנים, ולכן יש לבדוק ולהתאים את המערכת ברציפות, עם כללים לאומיים ברורים ותמיכה טכנית.
מה משמעות הדבר עבור המטופלות
הממצאים מרמזים שמערכת AI המיושמת בזהירות יכולה לסייע לתוכניות סקר לאומיות לזהות מוקדם יותר מקרי סרטן רציניים, במיוחד אצל נשים המגיעות לממוגרפיה הראשונה שלהן, ובה בעת להקל על העומס על מומחים מוצפים. עם זאת, המחברים מדגישים שההצלחה תלויה ביותר מאלגוריתם מדויק. שירותי הבריאות יזקקו לכיול מתמשך, ניטור קפדני לסטייה ולהטיה, שדרוג תשתיות ה‑IT ושילוב שקול בתוך זרימות העבודה האנושיות הקיימות. עם האמצעים המגינים הללו במקומם, ה‑AI עלול להפוך לקורא נוסף מהימן שמשפר הן את היעילות והן את ההוגנות של סקר סרטן השד במקום להיות תיבת שחורה שמוסיפה סיכונים חדשים.
ציטוט: Kelly, C.J., Wilson, M., Warren, L.M. et al. Diagnostic accuracy, fairness and clinical implementation of AI for breast cancer screening: results of multicenter retrospective and prospective technical feasibility studies. Nat Cancer 7, 494–506 (2026). https://doi.org/10.1038/s43018-026-01127-0
מילות מפתח: סקר סרטן השד, בינה מלאכותית רפואית, ממוגרפיה, הוגנות בריאותית, יישום קליני