Clear Sky Science · he
שילוב מודעות להוגנות במודלי עיבוד שפה קליניים
מדוע זה חשוב עבור מערכת הבריאות במציאות
הרפואה המודרנית מסתמכת יותר ויותר על בינה מלאכותית שמבוססת על רשומות רפואיות אלקטרוניות. עם זאת, עובדה בסיסית על מטופלים — הגזע והאתניות שלהם — לעתים קרובות חסרה או מתועדת באופן לא עקבי. הפער הזה מקשה על גילוי וטיפול באי־שוויונות בריאותיים. המאמר הזה בוחן האם מחשבים יכולים לשחזר באופן מהימן מידע על גזע מתוך הערות רופאים ובמקביל להימנע מטיפול בלתי הוגן בקבוצות שונות, ומה הדבר חושף לגבי הטיות הן ברשומות הרפואיות והן בכלי הבינה המלאכותית.

פערים סמויים ברשומות רפואיות
בתי חולים ומרפאות רבים משאירים את שדות הגזע והאתניות ריקים או משתמשים בקטגוריות מיושנות. הרשומות החסרות הללו אינן רק שגיאות בירוקרטיות; הן יכולות לעוות סטטיסטיקות לגבי מי מחלה, מי מקבל איזה טיפול ומי נהנה מטיפולים חדשים. במקביל, החלקים החופשיים בטקסט של הרשומות — היסטוריה חברתית והערות על גורמי סיכון — לעתים מזכירים בעקיפין את הרקע של המטופל. המחברים שאלו האם הרמזים המפוזרים הללו בטקסט לא מאורגן יכולים להיות מומרות לרשומה מאורגנת ועקבית של גזע, ולספק תמונה ברורה יותר של אי־שוויונות בבריאות ובשימוש בשירותי בריאות.
להדריך מחשבים לקרוא את הערות הרופאים
הצוות עבד עם בסיס נתונים גדול של רפואת משפחה קנדית, המכיל רשומות של כ־400,000 מטופלים ומעל 400 מרפאות. מהם הם משכו מדגם מייצג של כמעט 4,000 מבוגרים וסימנו בקפידה משפטים שהפנו במפורש לגזע או אתניות, תוך שימוש בתשע קטגוריות כמו שחורים, מזרח אסייתים, לטיניים ואינדיג'נוס, בנוסף לקטגוריית "חסר" כאשר לא הופיעה כל אזכור. מאחר שרוב ההערות אף פעם אינן מזכירות גזע, הם השתמשו באסטרטגיית "למידה אקטיבית" שבה מודל בינה מלאכותית ראשוני סימן את ההערות שבהן היה הכי לא בטוח, כדי שמסמנים אנושיים יוכלו להתמקד במקרים שמועדים ביותר להכיל מידע על גזע.

בניית מודלי שפה הוגנים יותר
החוקרים השוו כמה מודלים פופולריים מבוססי טרנספורמר — כמו BERT וגרסאות קליניות שלו — עם רשת עצבית קונבולוציונית היררכית מותאמת. בשונה ממודלים סטנדרטיים המתייחסים להערה כמחרוזת ארוכה של מילים, המודל ההיררכי משקף את הדרך שבה קלינאים כותבים: הוא מעבד מילים בתוך משפטים, לאחר מכן משפטים בתוך הערה, ולבסוף את הערות המטופל על פני זמן. הצוות גם ניסה אימון "מודע להוגנות", שבו נוספו איברים לפונקציית ההפסד שמענישים הבדלים גדולים בשיעורי הטעות בין קבוצות גזעיות וכיווננו עד כמה המודל "דואג" לטעויות עבור קבוצות מיעוט.
מה עבד ומה לא
המודל ההיררכי עלה על כל מודלי הטרנספורמר בסה"כ, והשיג דיוק גבוה מאוד וביצועים מאוזנים יותר בין קטגוריות גזעיות, אפילו לפני התאמות להוגנות. לעומת זאת, כמה טרנספורמרים עבדו היטב עבור מטופלים לבנים אך פספסו מקרים רבים בקרב קבוצות קטנות יותר, לפעמים ניבאו רק את קטגוריית הרוב. הוספת מגבלות הוגנות שיפרה באופן ניכר חלק מהמודלים, במיוחד BERT, והפכה את תחזיותיהם גם ליותר מדויקות וגם ליותר מפוזרות שוויונית בין הקבוצות. אולם אותן מגבלות פגעו במודלים אחרים, כולל המודל ההיררכי, ובאחד הטרנספורמרים הקליניים גרמו למערכת להתמוטט חזרה לניבויים של הרוב. המחקר גם מצא הבדלים מתמשכים בחיתוכים של גזע, מין וגיל, כאשר אינדיג'נוס, בעלי מורשת מעורבת, וחלק מתת־קבוצות אסייתיות ולטיניות נותרו הקשות ביותר לסיווג.
מה זה חושף לגבי הטיה
מכיוון שהמודל הביצועי ביותר הצליח לזהות באופן מהימן מידע על גזע כשהוא היה נוכח, המחברים טוענים שהבעיה העיקרית איננה חוסר אות בהערות אלא האינטראקציה בין מודלים ומאגרי נתונים לבין אי־שוויונות מבניים שנמשכים זמן רב. ההטיה חדרה דרך ייצוג חסר של קבוצות מסוימות, דרך דפוסים בדרך שבה קלינאים מתארים מטופלים שונים, ואפילו דרך תהליך הלמידה האקטיבית שבחר אילו הערות לסמן. אימון מודע להוגנות צמצם כמה פערים אך לא יכול היה לגבור במלואו על הבעיות המקוריות הללו, והשפעתו תלויה במידה רבה בעיצוב המודל.
מסר חשוב למטופלים ולקלינאים
העבודה מראה שניתן טכנית לבנות מודלי שפה שמשחזרים מידע על גזע מטקסט קליני בדיוק גבוה ובצורה הוגנת יותר, במיוחד כאשר הארכיטקטורות מכבדות את המבנה הרב־שכבתי של הערות רפואיות. עם זאת, היא גם מדגישה שאלגוריתמים לבדם אינם יכולים לתקן אי־שוויונות שמקורם בפרקטיקות תיעוד ובמערכת הבריאות עצמה. כדי שבינה מלאכותית תתמוך בטיפול צודק יותר, יש לשלב הוגנות בכל שלב — מאופן איסוף ודגימת הנתונים ועד לאופן האימון, הבדיקה והשימוש במודלים — ובמקביל על המוסדות הבריאותיים לשפר את הדרך שבה הם מתעדים ופועלים על מידע חברתי ודמוגרפי.
ציטוט: Abulibdeh, R., Lin, Y., Ahmadi, S. et al. Integration of fairness-awareness into clinical language processing models. Commun Med 6, 178 (2026). https://doi.org/10.1038/s43856-026-01433-9
מילות מפתח: עיבוד שפה טבעית קליני, הוגנות אלגוריתמית, רשומות רפואיות אלקטרוניות, שוויון בריאותי, נתוני גזע ואתניות