Clear Sky Science · he

יצירת מאגר דיאלוגים רפואיים מבוסס LLM עם הוראות אוטומטיות

2026-03-06 · חזרה לאינדקס

מדוע צ׳אטים רפואיים סינתטיים חשובים

בתי חולים שוקקים בשיחות: רופאים שמראיינים מטופלים, אחיות שמסבירות טיפולים, ועמיתים שמתדיינים על אבחנות. השיחות הללו חשובות לטיפול, אך קשה לתעדן ולשתף אותן בגלל חוקי פרטיות והרגישות של מידע רפואי. במקביל, סטודנטים בינלאומיים המעוניינים לעבוד בבתי חולים בסין חייבים לעבור את מבחן הסינית הרפואית (MCT), שמצריך דיאלוגים רפואיים רב־סיבוביים וריאליסטיים. מאמר זה מתאר שיטה להשתמש במודלים גדולים של שפה — מערכות כמו ChatGPT — כדי ליצור באופן אוטומטי אוסף עשיר, בטוח ומותאם למבחנים של שיחות רפואיות בסינית.

בניית נתונים שימושיים בלי לפגוע בפרטיות המטופלים

המחברים מתמודדים עם בעיה מרכזית: כיצד להשיג מספיק נתוני דיאלוג רפואי איכותיים לאימון ובחינה של מיומנויות שפה מבלי לחשוף מידע אמיתי על מטופלים. מערכי הצ׳אט הפומביים הרגילים אינם מתאימים למורכבות, למקצועיות או לכללי האתיקה של מפגשים רפואיים אמיתיים. שיחות רפואיות ארוכות, מקושרות לאורך סבבים רבים, וחייבות לשמור על תבניות תפקידים נוקשות — רופאים בדיבור מקצועי, מטופלים בתיאורים יום־יומיים, ואחיות המתאמות טיפול. בנוסף, ל־MCT יש הנחיות רשמיות שמגדירות נושאים, משימות ואוצר מילים נדרש. בקשה פשוטה ממודל שפה "להמציא" דיאלוגים לעיתים מספקת תוכן לא מציאותי או לא תקני, ולכן הצוות מפתח מסגרת מובנית להכוונת ההפקה.

מנאמרים מעוצבים ידנית לבריכת הוראות מתפתחת

המסגרת, שנקראת AIG-MCT, מתחילה בקבוצה קטנה של הוראות מעוצבות ידנית המשמשות כהנחיות מפורטות למודל השפה. כל הוראה מתארת מי מדבר (רופא, מטופל, אחות), התרחיש הרפואי (למשל מרפאת ילדים או חדר מיון), המשימה (איסוף היסטוריה, אבחנה, דיון בטיפול, ייעוץ מניעתי), מספר סבובי הדיאלוג הרצוי ואורכו המשוער. הוראות הזרע הללו נבנות בקפידה מתוך מתווה המשימות של MCT, רשימת הנושאים ואוצר המילים הרפואי הרשמי, ומחייבות שהשיחות התוצרות יישארו בהקשרים רפואיים ריאליסטיים ויעמדו ברמות מורכבות ספציפיות המתאימות למועמדי MCT.

סינון, דירוג ודגימה חכמה למען מגוון

כאשר מודל השפה יוצר דיאלוגים מהוראות אלה, הפלט הגולמי אינו מתקבל כפי שהוא. במקום זאת הוא עובר שכבות ניקוי שונות. חומר שאינו דיאלוגי, כמו רשימות או נתונים מובנים, מוסר. תפקידי הדוברים מתאימים לארבעה סוגי יחסים עיקריים — רופא–מטופל, רופא–אחות, רופא–רופא, ומטופל–אחות — כדי להתאים לצרכי MCT. הצוות בודק האם כל דיאלוג מכיל מספיק מילים מתוך אוצר המילים הרפואי הרשמי של MCT, האם הוא מגיע למינימום סיבובים, והאם אורכו נמצא בטווח שנבחר בקפידה. כלים אופציונליים לתיקון דקדוקי משדרגים עוד את השפה. דיאלוגים שאינם עומדים בבדיקות הללו, יחד עם ההוראות שהנחו אותם, נזרקים כדי שנותרו רק דוגמאות חזקות ואמינות.

להשאיר למודל לנסח הוראות טובות יותר

במקום להישען לנצח על ההנחיות שכתבו בני אדם, AIG-MCT מאפשר למערכת ללמוד הוראות חדשות מהפלט שלה עצמה. המודל נתבקש לא רק להפיק דיאלוגים אלא גם להציע הוראות חדשות שנוצרו על ידי המכונה. טכניקה הקרויה מקסימלית רלוונטיות שולי (Maximal Marginal Relevance) משמשת לבחירת הוראות שהן גם רלוונטיות לבריכה הקיימת וגם שונות במידה ניכרת ממה שכבר קיים, באמצעות השוואת דמיון בין ההוראות ובין הדיאלוגים שהן יוצרות. הוראות המועמדות הללו מקובצות לאחר מכן באמצעות האלגוריתם K-means, ונבחרות הוראות מייצגות מכל אשכול כדי לרענן את בריכת ההוראות. לאורך סבבים רבים, חלק ההוראות הכתובות בידיים מצטמצם בהדרגה, בעוד הוראות שנוצרו על ידי המכונה נבחרות בקפידה, שומרות על המגוון מבלי לאבד התאמה לכללי MCT.

כמה טוב האוסף המתקבל של שיחות רפואיות?

כדי לבחון את הגישה שלהם, המחברים השתמשו ב־ChatGPT (gpt-3.5-turbo) כגנרטור הראשי ובמודל שפה רפואי ממוקד, ZuoYi, כדי לסייע בבקרת התוכן הרפואי. הם החזירו את התהליך על עצמו 40 פעמים, בשילוב מסננים אוטומטיים עם סקירת מומחים אנושית, ובסופו של דבר בנו מאגר שנקרא MCT-Chat עם כ־20,000 דיאלוגים רב־סיבוביים. הצוות השווה את MCT-Chat למאגרים רפואיים סיניים ידועים מהעולם האמיתי כגון MedDialog, MedDG ו‑DISC-Med-SFT. מדדים אובייקטיביים הראו של־MCT-Chat יש מגוון לקסיקלי חזק וניסוח עשיר, בעודו מתמקד בקבוצת מחלות ותסמינים שנבחרו באופן מתאים למסגרת מבחן. המאגר מכסה גם טווח רחב של תפקידי דיאלוג, נושאים ומשימות, ואורכו הממוצע ומספר הסיבובים מותאמים לציפיות ה‑MCT.

שיפוטים של מומחים וכיוונים עתידיים

חמישה מומחים רפואיים דירגו דגימות אקראיות מ‑MCT-Chat ומהמאגרי השוואה. הם נתנו ציונים לשטף, הוגנות, סבירות רפואית, התאמה לדרישות MCT וליכולת להבחין בין רמות יכולת שונות. MCT-Chat קיבל ציונים שווי ערך או מעט גבוהים יותר בהשוואה למאגרים מהעולם האמיתי ברוב הקריטריונים, במיוחד ברציונליות ובהבחנה לצורכי דירוג, דבר שמרמז שדאטה סינתטית יכולה להיות מועמדת רצינית לחומרי בחינה — אם כי המחברים מדגישים שכל פריט מבחן אמיתי חייב עדיין לעבור בדיקה ידנית קפדנית. הם גם מציינים אתגרים שנותרו: מודלים של שפה עדיין עלולים לפרש נושאים מסובכים באופן שגוי, ודיאלוגים ארוכים עלולים להתדרדר לחזרתיות ללא בקרת זהירות. המחברים מציעים לשפר את שלב הקיבוץ, לשלב עדכוני ידע מתקדמים יותר ולהרחיב את המסגרת לרב־לשוניות ולתרבויות שונות כדי שניתן יהיה לבנות מאגרים דיאלוגים רפואיים מותאמי מבחנים ברחבי העולם.

המסר לקוראים שאינם מומחים

המחקר מראה שעם אמצעי זהירות מתאימים ואסטרטגיות דגימה חכמות, מודלים גדולים של שפה יכולים לסייע ביצירת שיחות רפואיות ריאליסטיות ובטוחות לפרטיות המותאמות למבחן שפה ספציפי. באמצעות שילוב של הנחיות רשמיות, מסננים אוטומטיים וסקירת מומחים, המחברים בנו מאגר של כ־20,000 דיאלוגים שעוקב בצמוד אחרי דרישות מבחן הסינית הרפואית. עבור מטופלים ולומדים כאחד, המשמעות היא שרופאים בעתיד עשויים להתאמן ולהיבחן באמצעות דיאלוגים סינתטיים אך אמינים, מה שיפחית את התלות בנתונים רגישים מהעולם האמיתי ועדיין יכין אותם לתקשורת אותנטית בבית החולים.

ציטוט: Zhou, H., Hu, X., He, T. et al. LLM-based medical dialogue dataset generation with automated instructions. Sci Rep 16, 12410 (2026). https://doi.org/10.1038/s41598-025-34835-1

מילות מפתח: דיאלוג רפואי סינתטי, מודלים גדולים של שפה, מבחן הסינית הרפואית, יצירת הוראות, חינוך בשפה רפואית