Clear Sky Science · he

איתור וניתוח כתובות מטופלים באמצעות למידה קונטרסטיבית מודעת גרף ידע ו־הפעלת LLM מקומי מוגבל

2026-02-09 · חזרה לאינדקס

מדוע כתובות מטופלים מסודרות חשובות

מאחורי כל ביקור בבית חולים עומדת שורת טקסט צנועה: כתובת בית המטופל. רחוק מלהיות פרט משרדי בלבד, כתובות אלו מזינות מיפוי מחלות, תכנון חירום והחלטות על מיקום מרפאות ואמבולנסים. ובכל זאת, במערכות תיעוד רפואיות רבות הכתובות שמורות כטקסט מבולגן וחסר עקביות, מלא בקיצורים, שגיאות הקלדה וחסרים. מאמר זה מציג את AddrKG‑LLM, שיטה חדשה שהופכת טקסט כתובת פרוע כזה לרשומות נקיות ואמינות תוך שמירה על פרטיות פרטים רגישים.

הבעיה של כתובות בית מבולגנות

כאשר מזינים כתובות בחופשיות, אנשים משמיטים לרוב רובעים, מחליפים סדר מילים או משתמשים בכינויים מקומיים שמפות רשמיות לא מזהות. שיטות מחשב ישנות משוות מחרוזות תו אחר תו או כרשימות מילים פשוטות, וזה עובד רק כשהקלט כבר נקי ושלם. מערכות למידה עמוקה חדשות קוראות הקשר בצורה חכמה יותר, אך עדיין עלולות להתבלבל מניסוחים יוצאי דופן ודרושות עוצמת חישוב רבה. לאחרונה מודי ל שפה גדולים הציגו יכולת מרשימה להבין ולייצר טקסט. עם זאת, כאשר נותנים להם להגיב בחופשיות, הם עלולים גם "להזות" פרטים שאינם קיימים בנתונים — סיכון בלתי מתקבל על הדעת בתחום הבריאות, שבו הרשומות חייבות להיות מדויקות וניתנות לביקורת.

מסלול דו‑שלבי Chaos לאורגניזציה

החוקרים תכננו את AddrKG‑LLM כצינור בעל שני שלבים שמוסיף מבנה ומעקלים סביב מודל השפה במקום לאפשר לו לפעול לבד. ראשית, הכתובות הנכנסות מנוקות כדי להסיר פרטים מזהים מאוד כמו מספרי בניין וחדר ומספרי טלפון, מה שעוזר להגן על הפרטיות. הטקסט שנותר מומר לייצוג מספרי צפוף שמקליט את משמעותו. במקביל, הצוות בונה גרף ידע — רשת דמוית מפה שמקודדת את הקשרים הרשמיים בין ערים, רובעים, רחובות וקהילות מגורים. באמצעות טכניקה שנקראת למידה קונטרסטיבית, מאמנים את המערכת כך שכתובות המצביעות לאותה קהילה אמיתית יזכו ליחס קרבה במרחב המשותף הזה, בעוד מקומות לא קשורים נדחפים הרחק זה מזה. זה מאפשר למערכת לשלוף במהירות רשימת מועמדים קצרה של כתובות סבירות עבור כל רשומת מטופל חדשה.

שמירה על ה־AI ברסן קצר

בשלב השני, מודל השפה הגדול פועל בתוך מרחב חיפוש מוקף בגדר קפדנית. במקום להמציא כתובת מהתחלה, המודל מקבל את הטקסט המקורי שנוקה בתוספת קבוצת מועמדים קטנה של קהילות שהציע גרף הידע. ההנחיה מפורשת: לבחור רק מתוך המועמדים הללו ולפלט תוצאות במבנה JSON קבוע עם שדות נפרדים לעיר, רובע, רחוב או עיירה וקהילה. אם אף אחד מהמועמדים אינו מתאים — למשל כאשר הקהילה האמיתית לא נשלפה — המודל מתבקש להחזיר ערכים ריקים במקום לנחש. התנהגות ה"דחייה תחילה" הזאת מצמצמת במידה ניכרת את הסיכון שתיכנסנה לרשומות בית חולים כניסות נשמעות סבירות אך שגויות.

כמה טוב זה עובד בפועל?

הצוות בדק את AddrKG‑LLM על עשר אלף כתובות אמיתיות של בתי חולים שנתנו להם זהות מוסרת, המשקפות רעש מהעולם האמיתי: קיצורים, רובעים חסרים, וריאנטים איות ואפילו רשומות שאינן תקפות כלל. הם השוו את המערכת שלהם מול כלים קלאסיים של התאמת מחרוזות, מודלים ללימוד רצפים לסימון תוויות, מודלים כלליים של שפה שנעשה בהם שימוש בצורה חופשית ושירות מסחרי לאחידות כתובות. במדדים מחמירים שדורשים שכל שדה בכתובת יהיה נכון בו‑זמנית, AddrKG‑LLM עלה על כל הבסיסים הללו, והעלה את הדיוק הכולל ביותר מ־12 נקודות אחוז על פני מודל חזק מבוסס BERT. השיפורים היו ברורים במיוחד עבור כתובות מקוצרות וחסרות חלקית, שם ההיררכיה המובנית של גרף הידע מסייעת למלא פערים. המחברים גם חקרו כיצד הביצועים משתנים לפי גדלי מודלי שפה שונים ובמספר מועמדים שנשלפים, והראו כיצד בתי חולים יכולים לאזן בין מהירות ודיוק לפי צרכיהם.

מה משמעות הדבר עבור הטיפול היומיומי

ללא‑מומחים, המסר המרכזי הוא ש‑AddrKG‑LLM מציעה דרך לנקות נתוני כתובת מטופלים חיוניים אך מבולגנים תוך שמירה על שליטה בידי אדם. על ידי שילוב גרף ידע דמוי מפה עם מודל שפה מוגבל המבוסס על שרתי בית החולים בלבד, המסגרת מספקת כתובות מדויקות ועקביות יותר מבלי לשלוח פרטים רגישים לשירותי ענן חיצוניים או לאפשר ל‑AI לאלתר. התוצאה היא כלי מעשי שיכול לחזק את מעקב המחלות, לשפר תכנון משאבים ולתמוך בתפעול בתי חולים בטוח ויעיל יותר — פשוט על‑ידי הבטחה שכל מטופל ממוקם בצורה מהימנה על המפה.

ציטוט: Li, J., Pan, X. & Jia, Y. Patient address parsing via KG-aware contrastive learning and constrained on-prem LLM inference. Sci Rep 16, 8003 (2026). https://doi.org/10.1038/s41598-026-39348-z

מילות מפתח: איתור כתובת מטופל, איכות נתוני בריאות, גרף ידע, מודל שפה גדול, אינפורמטיקה רפואית