Clear Sky Science · he

גישה ממוקדת בנתונים לזיהוי ולהפחתת הטיה דמוגרפית בטקסט קליני של בריאות הנפש בילדים

· חזרה לאינדקס

מדוע המחקר הזה חשוב למשפחות

כשתחום הרפואה נעזר יותר ויותר בבינה מלאכותית (AI) לזהות סימנים מוקדמים לבעיות נפשיות, נושאת שאלה חיונית: האם הכלים האלה מדויקים באותה מידה עבור כל הילדים? המחקר בוחן בקפידה כיצד ה‑AI מפרש פתקים קליניים של רופאים כדי לחזות חרדה אצל ילדים ובני נוער—ומגלה כי בנות, ובפרט מתבגרות, נוטות להחמיץ יותר לעתים. החוקרים מציעים לאחר מכן דרך מעשית להקטין אי־הוגנות במערכות אלה מבלי לוותר על מידע רפואי חשוב.

Figure 1
Figure 1.

דאגה גוברת בדור לחוץ

חרדה ודיכאון בקרב ילדים ובני נוער עלו באופן חדה בשנים האחרונות, כאשר שיעורי תסמינים חרדתיים משמעותיים מבחינה קלינית כמעט הכפילו עצמם במהלך מגפת COVID‑19. מערכות הבריאות בלחץ: הערכות מקיפות גוזלות זמן, דורשות מעורבות של הורים, מורים והנערים עצמם, ומצריכות קלינאים עם הכשרה מיוחדת. בינה מלאכותית מציעה סיוע אפשרי—סריקה מהירה של כמות גדולה של מטופלים על ידי קריאת הטקסט החופשי שהקלינאים כבר כותבים. אבל אם הפתקים האלה נושאים הטיות נסתרות, ומודלים של AI לומדים מהן בלי בדיקה, הטכנולוגיה עלולה להחריף בפורקן אי־שוויוניות קיימות במקום להקל עליהן.

איך הצוות חקר הטיה ברשומות בית חולים אמיתיות

החוקרים נעזרו ברשומות רפואיות אלקטרוניות של למעלה מ‑1.3 מיליון מטופלים שנבדקו ב‑Cincinnati Children’s Hospital בין 2009 ל‑2022. מתוך מאגר זה התרכזו בכ‑73,000 מטופלים צעירים בגילאי 5–15 שאובחנו בסופו של דבר עם חרדה, ומתאמים כל אחד מהם לילד דומה ללא אבחנה כזו (אותו גיל, מינו זהה, היסטוריה קלינית דומה). עבור כל ילד אספו עד 25 הפתקים האחרונים של רופאים ואחיות שנכתבו לפחות חודש לפני האבחנה הראשונה לחרדה, והשתמשו במודל שפה מודרני, Clinical‑BigBird, כדי ללמוד דפוסים שמקשרים טקסט לחרדה מאוחרת יותר. לאחר מכן בדקו כיצד המודל עבד בנפרד עבור בנים ובנות, וכן עבור קבוצות גזעיות שונות, באמצעות שיעורי שגיאה המקובלים במחקר על הוגנות.

מה השתבש עבור בנות וקבוצות נוספות

בכל קבוצות הגיל, הדיוק הכולל של מודל ה‑AI היה צנוע—כ‑61 אחוז בערך—אבל מבט מעמיק יותר חשף דפוס עקבי ומדאיג. עבור בנות, המודל היה פחות מדויק בכ‑4 נקודות אחוז ויצר כ‑9 אחוז יותר של שליליים כוזבים, כלומר בנות עם חרדה סווגו בתדירות גבוהה יותר כלא סובלות מחרדה. התחזיות של המודל עבור בנות היו גם בתדירות גבוהה יותר "מלאות בספק", נעות באזור גבולי. כאשר הצוות בחן את הטקסט הבסיסי, הם מצאו כי הפתקים אודות בנים היו בממוצע כ‑500 מילים ארוכים יותר וכי מערכי המילים ששימשו עבור בנים ובנות חופפים רק חלקית, במיוחד בקטגוריות הגיל הצעירות והמבוגרות ביותר. הבדלים אלה משקפים סביר להניח היכן הילדים נבדקים (למשל מרפאות נוירולוגיה או גסטרואנטרולוגיה עבור בנים מול פנימייה כללית או פדיאטריה התפתחותית עבור בנות) ואיך קלינאים בסביבות אלה מתעדים תסמינים, ולא הבדלים ביולוגיים אמיתיים בחרדה.

Figure 2
Figure 2.

לנקות את הטקסט בלי לאבד את הסיפור

במקום לשנות את מודל ה‑AI עצמו, הצוות התמקד בניקוי נתוני האימון בשתי דרכים. ראשית, השתמשו בצעד סינון מידע שמדרג כל משפט לפי כמה המילים בו אינפורמטיביות על פני כל המערכת, ואז מסיר את 20 האחוזים הפחות אינפורמטיביים. זה מקצר פתקים ארוכים וחוזרים על עצמם ומאוזן את צפיפות המידע בין המטופלים. שנית, כיוונו לשפה מובהקת מבחינה מגדרית—שמות וכינויי גוף—והחליפו אותם אוטומטית במילוי מקום ניטרלי וכינויי גוף ניטרליים מבחינה מגדרית, כך שהמודל לא ייתפס על "הוא" או "היא" כאינדיקטורים. שני הצעדים נבדקו בנפרד ובשילוב, והממשקים הותאמנו מחדש על הפתקים המשונים בזמן שהוערכו על פתקים מבחן מקוריים שלא שונו.

תוצאות הוגנות יותר בלי איבוד התועלת

מודלים שאומנו על נתונים מנוקים הופיעו בביצועים דומים או מעט טובים יותר מהמודל המקורי מבחינת הדיוק הכולל, אך טיפלו בקבוצות בצורה שוויונית יותר. שיטת סינון המשפטים, בפרט, קיצצה את הפער באבחון חרדה שלא זוהה בין בנים ובנות בכ‑של עד כשליש, והקטינה את חוסר הוודאות העודף שנצפה אצל בנות. כאשר שני השיטות שולבו, הן גם סייעו לצמצם הבדלים בין קבוצות גזעיות. בדיקה נוספת באמצעות כלי להסבר הראתה כי לאחר הפחתת ההטיה, המודל נשען פחות על מילים הקשורות למגדר ויותר על מילים בהקשר קליני משמעותי כמו "מוצג" או "תלונה", מה שמרמז על תהליך קבלת החלטות בריא יותר.

מה המשמעות לעתיד ה‑AI בטיפול בילדים

המסקנה של המחקר היא שכלי AI לבריאות הנפש הילדית פגיעים להטיות שמקורן אינו בביולוגיה, אלא באופן ובמקום שבו מתועדת הטיפול. על ידי סינון שיטתי של משפטים בעלי ערך נמוך וניטרול שפה מגדרית, מראים החוקרים כי ניתן לצמצם פערים לא הוגנים אלה מבלי לפגוע בביצועים. אמנם העבודה עדיין הוכחת רעיון ודורשת בדיקה עם מודלים ובבתי חולים אחרים, היא מציעה מתכון קונקרטי, ממוקד־נתונים, להחיל סקרי סינון בעזרת AI באופן הוגן יותר עבור בנות וקבוצות נוספות שעלולות בדרך אחרת להישמט מהשיח.

ציטוט: Ive, J., Bondaronek, P., Yadav, V. et al. A data-centric approach to detecting and mitigating demographic bias in pediatric mental health text. Commun Med 6, 221 (2026). https://doi.org/10.1038/s43856-026-01480-2

מילות מפתח: חרדה בילדים, הטיה בטקסט קליני, הוגנות ב-AI, רשומות רפואיות אלקטרוניות, סריקה לבריאות הנפש