Clear Sky Science · he

ניצול עיבוד שפה טבעית ולמידת מכונה לזיהוי מצבים כרוניים מתוך רשומות רפואיות אלקטרוניות בטיפול הראשוני

· חזרה לאינדקס

למה תיעוד הרופא שלך חשוב יותר ממה שאתה חושב

כשאתה מבקר אצל רופא המשפחה, כל שיעול, תלונה ודאגה נכתבים ברשומה הרפואית האלקטרונית שלך. רוב הפרטים הללו נמצאים בהערות חופשיות ולא בתיבות סימון מסודרות. המחקר הזה מראה שההערות הנרטיביות האלו, המשולבות עם שיטות חישוביות מודרניות, יכולות לעזור לרופאים לזהות מחלות כרוניות כמו דלקת מפרקים, מחלות כליה, סוכרת, יתר לחץ דם ובעיות נשימתיות בצורה מדויקת יותר — במיוחד כשבעיות אלה אינן מקודדות בבירור בשאר חלקי התיק.

רמזים חבויים בתוך הרשומות היומיומיות של הקליניקה

הרשומות הרפואיות האלקטרוניות בטיפול הראשוני מכילות שני סוגי מידע מאוד שונים. יש פריטים מובנים, כגון קודי חיוב, רשימות תרופות ותוצאות בדיקות מעבדה, ויש הערות בלתי־מובנות, שבהן המטפלים מתארים סימפטומים, היסטוריה ושיקול דעת בשפה רגילה. בקנדה, קודי חיוב לעתים קרובות אינם שלמים ומשמשים בעיקר לתשלום ולא לאבחון מדויק, ולכן בעיות בריאות רבות מופיעות בצורה ברורה יותר בהערות מאשר בתיבות הסימון. החוקרים ביקשו לבדוק האם כריית שני סוגי המידע יחד יכולה לזהות טוב יותר חמש מצבים כרוניים נפוצים אצל מטופלים בני 60 ומעלה שהשתמשו בקליניקה משפחתית אחת באלברטה.

Figure 1
Figure 1.

ללמד מחשבים לקרוא את שפת הרופא

כדי לנצל את הטקסט העשיר אך מבולגן של ההערות הקליניות, הצוות השתמש בעיבוד שפה טבעית — מערך כלים שעוזר למחשבים לעבוד עם שפה אנושית. הם ניקו את ההערות על ידי הסרת סימנים זרים, תקנון מילים, הרחבת קיצורים והפחתת מילים קשורות לשורשים משותפים. הם גם בנו כללים פשוטים לזיהוי מקרים שבהם ההערה מציינת שהמטופל לא סובל ממצב מסוים — למשל משפטים כמו "אין עדות ל" או "הופלל" — כדי שהמחשב לא יתפרש בטעות כמצביע חיובי. קלינאים בצוות יצרו רשימות של מונחים וביטויים משמעותיים לכל מצב, וכך עזרו לאלגוריתמים למקד מיקוד לרעיונות רפואיים רלוונטיים ולא לכל מילה שעשויה להופיע.

איתור נושאים ולמידה מתבניות

בהמשך, החוקרים כימתו את הטקסט כדי שניתן יהיה להזינו למודלי למידת מכונה. הם ספרו כמה פעמים כל מילה או זוג מילים הופיעו בהערות של כל מטופל, אך גם הפחיתו את המשקל של מילים מאוד שכיחות והדגישו את אלה שהיו ייחודיים במיוחד למצב מסוים. באמצעות שיטה שנקראת מודלינג נושאים, הם בדקו שהקבוצות השכיחות של מילים בהערות תואמות את המצבים המעניינים — לדוגמה, מונחים המקושרים לסוכרת או ליתר לחץ דם. שלב זה שימש כבדיקת המציאות, ואישר שהנושאים שהמחשב זיהה מתאימים לידע הקליני לפני בניית המודלים החזויים.

להניח לאלגוריתמים לסמן מי קרוב להיות חולה

ליבת המחקר הייתה אימון של שלושה סוגי מודלי למידת מכונה להכריע האם כל מטופל כנראה סובל מכל אחד מחמשת המצבים הכרוניים. מודל אחד עבד כמו ממד סיכון משוכלל, מודל שני שרטט גבול בין מקרים בריאים לחולים, ושלישי דמה לרשת פשוטה בהשראת מוח. החוקרים אימנו את המודלים תחילה תוך שימוש רק בחלקים המובנים של הרשומה, ולאחר מכן אימנו אותם מחדש תוך שימוש גם בנתונים המובנים וגם בתכונות הטקסט המעובדות מההערות. הם גם תיקנו את העובדה שחלק מהמחלות היו נדירות במדגם על ידי איזון זהיר של הנתונים כדי שמצבים נדירים לא ייחמצו על ידי האלגוריתמים.

שיפורים ברורים משימוש בסיפור המלא

כשנוספו ההערות הבלתי־מובנות, המודלים הפכו לשיפור ברור ביכולתם להבחין מי חולה ומי לא, במיוחד עבור בעיות שלעתים אינן מקודדות היטב בנתוני החיוב. עבור דלקת מפרקים ומחלות נשימה, המדדים של עד כמה המודלים הפרידו בין חולים לבריאים וכמה הם זיהו מקרים אמיתיים השתפרו באופן משמעותי. לדוגמה, הביצועים בזיהוי בעיות נשימה ודלקת מפרקים עלו מממוצע לחזק כאשר כללו את ההערות. השיפורים לסוכרת וליתר לחץ דם היו קטנים יותר מכיוון שמצבים אלה כבר תועדו היטב בשדות המובנים. מעניין שדגמים הפשוטים לעתים קרובות הופיעו בביצועים שווים או טובים יותר מהרשת העמוקה המורכבת, מה שמרמז שלמידה עמוקה מתוחכמת אינה תמיד נחוצה למשימות ברמת הקליניקה הזו.

Figure 2
Figure 2.

מה זה עשוי להגיד על הטיפול העתידי שלך

בסך הכול, המחקר מראה שהתייחסות לחלקים הנרטיביים של הרשומות הרפואיות — לא רק לקודים ולמספרי מעבדה — יכולה לחדד משמעותית את היכולת שלנו למצוא מטופלים עם מחלות כרוניות. על ידי המרת הערות חופשיות לאותות שניתנים לקריאה על־ידי מכונה ושילובן עם נתונים מובנים קיימים, מערכות בריאות עשויות להיות מסוגלות לזהות מטופלים בסיכון מוקדם יותר, למקד מעקב וטיפול היכן שיותר נחוץ, ולהרחיב גישה זו למצבים אחרים שנמצאים ברובם בסיפור הכתוב של הביקור ולא בתפריטי הבחירה.

ציטוט: Zhang, N., Abbasi, M., Khera, S. et al. Leveraging natural language processing and machine learning to identify chronic conditions from primary care electronic medical records. Sci Rep 16, 8441 (2026). https://doi.org/10.1038/s41598-026-38594-5

מילות מפתח: רשומות רפואיות אלקטרוניות, גילוי מחלות כרוניות, עיבוד שפה טבעית, למידת מכונה במערכת הבריאות, נתוני טיפול ראשוני