Clear Sky Science · he
מודלים שפתיים גדולים בעלי כוונון עדין עם הנחיות מובנות מאפשרים בנייה יעילה של גרפי ידע לסרטן הריאה
מדוע המרת טקסטים רפואיים למפות חשובה
סרטן הריאה הוא אחד מסוגי הסרטן הקטלניים ביותר בעולם, והמידע על האבחון והטיפול בו מפוזר במאמרי מחקר, ברישומי בתי חולים, בייעוצים מקוונים ובספרי מקרה של רפואה מסורתית. רופאים וחוקרים מתקשים לעמוד בקצב הזרם הזה של טקסט. מחקר זה בוחן דרך חדשה להפוך באופן אוטומטי את הידע המפוזר הזה ל"מפה" אחת ניתנת לניווט — גרף ידע לסרטן הריאה — באמצעות מודל שפה גדול שעבר כוונון עדין והנחיות מובנות בקפידה. התוצאה נועדה להקל על חיפוש ידע רפואי מורכב למחשב ועל שימוש מומחים בכלים לתמיכה בהחלטה.
ממעשיות מפוזרת לעובדות מקושרות
המחברים מתמקדים ברעיון פשוט: אם אפשר לחלץ באופן מהימן מי-עושה-מה-לאיזה-מה מתוך טקסט רפואי, ניתן לתפור את העובדות האלה לגרף. בפועל, המשמעות היא המרת משפטים חופשיים ליחידות בנייה זעירות הנקראות משולשים — זוגות ישויות הקשורים על ידי יחס, כגון "סרטן הריאה – מטופל על ידי – כימותרפיה." שיטות מסורתיות לבניית גרפים כאלה דורשות או צבאות של מסמנים אנושיים או כללים שבירים שמחמיצים דקויות וגילויים חדשים. כדי להתגבר על כך, הקבוצה מבצעת כוונון עדין למודל שפה סיני קיים, ChatGLM-6B, כך שיתמחה בזיהוי משולשים בעלי משמעות רפואית אודות סרטן הריאה ממגוון מקורות, משיחות מטופל–רופא מקוונות ועד מאגרי נתונים מובנים ורשומות רפואה מסורתית סינית. 
ללמד בינה לחשוב ביחידות מסודרות
בקשה פשוטה ממודל שפה כללי "לחלץ מידע" לעתים מניבה תשובות מבולגנות ודיבוריות. לכן החוקרים תכננו סכמת הנחיה נוקשה וכיווננו עדין את המודל על כמעט 50,000 דוגמאות של התנהגות נכונה. כל דוגמה מציגה הוראה ואת הפלט המדויק בסגנון המשולש המצופה. ההנחיה מורה למודל להתנהג כמו מומחה כריית טקסט מקצועי, להפיק רק משולשים מובנים בפורמט קריא-מחשבה, ול"לחשוב שלב אחר שלב" כאשר משפטים מכילים פרטים מקוננים — לדוגמה, טיפול, התרופה שבה משתמשים ומינונה. שילוב תיחום התפקיד, כללי הפורמט והסברה שלב-אחר-שלב ממיר את המודל — שכעת נקרא KGLM — מעוזר שיחה למחלץ משמעתי של עובדות מוכנות-מכונה.
מיזוג קולות רבים לגרף אחד ברור
המשולשים הגולמיים מהטקסט הם רק חלק מהסיפור. אותה מחלה או תרופה מופיעים לעיתים תחת שמות שונים — למשל "מחלת ריאות חסימתית כרונית" לעומת "COPD." כדי למנוע בלבול ועומס, המחברים תכננו שלב מיזוג שמאחד ישויות שוות-משמעות משלוש זרימות נתונים: טקסט רשת בלתי מובנה, מקרים קליניים חצי-מובנים וגרפי ידע רפואיים קיימים. תחילה בדיקת דמיון מחרוזתית מהירה מסמנת התאמות ברורות. כאשר זה לא מספיק, מודל דמיון סמנטי עמוק יותר (Sentence-BERT) משווה משמעויות בהקשר. ישויות שנשפטו ככפולים מתמזגות לצומת קנונית אחת, כשמות קצרים מועדפים וצורות אחרות נשמרות ככינויים. מומחים לאחר מכן בוחנים מקרים שוליים ומסירים אמירות מטעות או באיכות נמוכה, מה שמניב גרף ידע לסרטן הריאה נקי ובהיר יותר המאוחסן במסד נתונים Neo4j. 
כמה טובה המפה הזו?
כדי להעריך ביצועים, הצוות משווה את KGLM לגישות למידה עמוקה סטנדרטיות מבוססות BERT ורשתות קונבולוציה, וכן למודל ChatGLM המקורי שלא עובר כוונון. במשימת חילוץ יחסים — החלטה אילו ישויות מקושרות ובאיזה אופן — ה-KGLM המכוונן ומונחה ההנחיות משיג ציון F1 של כ-0.82, עולה על כל הבסיסים שנבדקו ומשפר בכ-25 אחוזים לעומת המודל ההתחלתי. ניסויי אבלאציה מראים שכל מרכיב בהנחיה חשוב: הסרת תפקיד המומחה, הפורמט המחמיר של המשולש או הנחיית "לחשוב שלב אחר שלב" מפחיתה את הדיוק, במיוחד במשפטים מורכבים עם תכונות מקוננות או מונחים מרפואה סינית מסורתית. פאנל של מומחים קליניים ואינפורמטיים גם שפט את הגרף שהתקבל כמדויק, שמיש ורלוונטי קלינית יותר מאשר גרפים שנבנו ללא כוונון או הנחיות מובנות.
מה משמעות הדבר לכלים רפואיים בעתיד
באופן פשוט, המחקר מראה שבעזרת אימון נכון והנחיות מתאימות, מודל שפה גדול יכול ביעילות להפוך טקסט סרטן ריאה אמיתי ומבולגן לרשת עובדתית מאורגנת וחיפושית. גרף הידע לסרטן הריאה הזה, למרות שהוא עדיין אב-טיפוס מחקרי ומוגבל למקורות בשפה הסינית ולתחום מחלה יחיד, מצביע אל עתיד שבו "מפות ידע" המתעדכנות באופן שוטף יכולות לתמוך במערכות תמיכה בהחלטה, בכלי חינוך ובחקירה מחקרית. המחברים מדגישים שגרפים כאלה חייבים לעבור אימות קפדני ולעודכן באופן סדיר, ואינם מוכנים להנחות טיפול ללא פיקוח מומחים. עם זאת, התוצאות מרמזות שכאשר כווננו מודלים שפתיים בצורה מדויקת ובשילוב הנחיות חכמות, ניתן להפוך את המשימה המאיימת של ארגון ידע רפואי ליותר מדרגתית וזמינה בזמן.
ציטוט: Zhou, C., Gong, Q., Luan, H. et al. Fine-tuned large language models with structured prompts enable efficient construction of lung cancer knowledge graphs. Sci Rep 16, 9505 (2026). https://doi.org/10.1038/s41598-026-38959-w
מילות מפתח: סרטן הריאה, גרף ידע, מודל שפה גדול, חילוץ יחסים, בינה רפואית