Clear Sky Science · he

הפקת סיכומי אשפוז מדויקים באמצעות התאמת דגמי שפה גדולים עם הערכה עצמית

2026-01-17 · חזרה לאינדקס

מדוע העבודה המנהלתית בבית החולים באמת חשובה

כאשר מטופל עוזב את בית החולים, הסיפור של מחלתו אינו מסתיים ביציאה. רופאים במרפאות אחרות, רופאי המשפחה והמטופלים עצמם מסתמכים על מסמך מרכזי הנקרא סיכום אשפוז כדי להבין מה קרה בבית החולים ומה יש לעשות הלאה. עם זאת, כתיבת סיכומים אלה היא עבודה איטית וחזרתית שלפעמים לוקחת לצוותים עמוסים חצי שעה או יותר לכל מטופל. מחקר זה בוחן כיצד כלי שפה מודרניים מבוססי בינה מלאכותית יכולים לסייע בניסוח סיכומי אשפוז במהירות ובדייקנות רבה יותר, תוך שמירה על פרטיות המטופלים ושליטה של בית החולים בנתונים.

הפיכת רשומות מפוזרות לסיפור ברור

מידע בית החולים מפוזר במערכות אלקטרוניות שונות: תוצאות מעבדה בטבלה אחת, רשומות ניתוח בטבלה שניה, תצפיות של האחיות בטבלה שלישית, וכדומה. שהיית כל מטופל מייצרת אלפי פיסות טקסט קטנות. החוקרים בנו תחילה צינור עיבוד שממיר את המידע המפוזר והמבולגן הזה לקלט מסודר שהמודל יכול להבין. באמצעות שיטות לאיחוד והסרת כפילויות של רשומות חופפות, סינון פרטים מזהים כגון שמות ומספרי זיהוי, תיקון שגיאות כתיב וסטנדרטיזציה של מונחים רפואיים, יצרו קלט מובנה עבור כל אשפוז. התהליך הוחל על נתונים של יותר מ-6,000 מטופלים שעברו ניתוחי בלוטת התריס בבית חולים מרכזי בסין, והניב דוגמאות זוגיות של סיכומי אשפוז אמיתיים והנתונים הגולמיים שממנו נכתבו.

כיוונון דגמי בינה לשפה של הרפואה

דגמי שפה גדולים סטנדרטיים מאומנים על טקסט כללי מהאינטרנט ומהספרות, ולכן לעתים הם מתקשים בשפה רפואית ממוקדת וסגנונות תיעוד מקומיים. הצוות השווה מספר שיטות ל"כיוונון" של דגמים קיימים כדי שיבינו טוב יותר רשומות רפואיות בסינית. שיטה חדשה שנקראת התאמה ממדרגה נמוכה מפורקת משקלות (DoRA) מתקנת את המשקלים הפנימיים של המודל בצורה ממוקדת יותר מאשר טכניקות ישנות כמו LoRA ו-QLoRA. לאורך דגמים שונים, כולל Qwen2, Mistral ו-Llama 3, DoRA סיפקה בעקביות סיכומים שזורמים טוב יותר, קרובים יותר במשמעות לסיכומים שנכתבו בידי בני אדם ופחות מבלבלים (נמדד במטראיקה סטנדרטית הנקראת פרפלכסיטי). במובן זה, DoRA סייעה למערכת ללמוד ניסוח ומינוח רפואי ללא צורך באימון מלא על חומרה ענקית.

ללמד את הבינה לבדוק את עבודתה

גם מודל מאומן היטב עלול לשכוח פרטים חשובים או להוסיף שגיאות קטנות כשכורה סיכום ארוך במעבר אחד. בהשראת רעיונות פסיכולוגיים על "מערכת 1" מהירה לעומת "מערכת 2" איטית וזהירה, המחברים תכננו לולאת הערכה עצמית. תחילה המודל כותב טיוטת סיכום אשפוז מהנתונים המעובדים. אז הנתונים המקוריים מפורקים למקטעים — כגון ממצאי פתולוגיה, הוראות רופאים או לוחות בדיקות — וכל מקטע מוצמד מחדש לטיוטת הסיכום. המודל נשאל, בפועל, "האם כל מה שבמקטע זה משתקף בסיכום?" אם לא, הוא מתקין את הטקסט כדי להוסיף מידע חסר או לתקן חוסר התאמה. המחזור הזה חוזר עד שלוש פעמים או עד שהמודל מעריך את הסיכום כמלא, ומפיק גרסה מעודנת התואמת ביתר נאמנות לרשומות המטופל.

כמה טוב עשתה הבינה בהשוואה לבני אדם?

כדי לשפוט איכות, הצוות השתמש גם בציונים אוטומטיים וגם בבוחנים אנושיים. רופאים ומחוקרים רפואיים דרגו את הסיכומים על דיוק, שלמות, בהירות, עקביות ושימושיות להמשך טיפול. המערכת הטובה ביותר — שילוב של כיוונון DoRA יחד עם לולאת ההערכה העצמית — התקרבה ביותר לסיכומים שנכתבו על ידי בני אדם בכל המדדים. היא שיפרה במיוחד את השלמות, כלומר פחות אבחנות, טיפולים או ערכי מעבדה חסרים. בדוגמה מפורטת, המערכת בתחילה שכחה להזכיר סרטן קטן בתירואיד וגלולה הורמונלית ספציפית; לאחר שתי העברות של הערכה עצמית, שני הפרטים נוספו כהלכה. בממוצע המערכת ייצרה סיכום אשפוז בכ־80 שניות על שרת בית החולים, לעומת 30–50 דקות של רופא שיכתוב מסמך כזה מאפס, אם כי בדיקה אנושית נותרת חיונית לפני הכנסת הטקסט לרישום הרשמי.

מה זה יכול לשנות עבור מטופלים וצוותים רפואיים

המחקר מראה שעם אימון זהיר ובקרות בדיקה עצמית מובנות, מערכות בינה מלאכותית יכולות להפיק סיכומי אשפוז מדויקים דיים להיחשב לקבלים קלינית לאחר בדיקה אנושית קצרה. זה אינו מחליף רופאים, אבל יכול להעביר את זמנם ממלאכת כתיבה שגרתית לבחינה וקבלת החלטות ברמת-על. על ידי שמירה על כל החישובים בתוך רשת בית החולים והסרת פרטים מזהים, הגישה גם מכבדת את פרטיות המטופלים. אמנם התוצאות הנוכחיות נובעות ממחלקה בודדת בבית חולים אחד, אך המסגרת מצביעה לעתיד שבו בינה מלאכותית מסייעת להפוך נתונים רפואיים מורכבים לנרטיבים ברורים ואמינים במגוון תחומים, ולתמוך במסירות טיפול בטוחה ובהבנה טובה יותר עבור מטופלים ובני משפחותיהם.

ציטוט: Li, W., Feng, H., Hu, C. et al. Accurate discharge summary generation using fine tuned large language models with self evaluation. Sci Rep 16, 5607 (2026). https://doi.org/10.1038/s41598-026-35552-z

מילות מפתח: סיכומי אשפוז, בינה מלאכותית רפואית, דגמי שפה גדולים, תיעוד קליני, הערכה עצמית