Clear Sky Science · he

חילוץ יחסים ובנורמליזציה של מושגים מבוססי טרנספורמרים באמצעות קורפוס של ניסויים קליניים עם תיוג

· חזרה לאינדקס

עוזרים לרופאים למצוא את המטופלים הנכונים מהר יותר

כל ניסוי קליני תלוי במציאת מטופלים שעונים על רשימה ארוכה של מצבים רפואיים, טיפולים וטווחי זמן. כיום רופאים לעתים קרובות צריכים לעבור ידנית על רשומות בריאות אלקטרוניות ותיאורי ניסויים, דבר שלוקח זמן ועלול לגרום לשגיאות. מאמר זה מציג אוסף גדול ובדיקת-איכות קפדנית של טקסטים של ניסויים קליניים בספרדית ומדגים כיצד אינטיליגנציה מלאכותית מודרנית יכולה להפוך את השפה הבלתי-מובנית הזו לנתונים מאורגנים, ולסלול את הדרך למחקר רפואי מהיר, הוגן ומדויק יותר.

Figure 1
Figure 1.

הפיכת טקסט חופשי למידע מאורגן

ניסויים קליניים מתארים מי יכול ומי אינו יכול להשתתף באמצעות שפה רפואית יומיומית: מגבלות גיל, מחלות קודמות, תוצאות מעבדה וטיפולים שניסו. מחשבים מתקשים עם סוג זה של טקסט חופשי. המחברים יצרו את הגרסה ה‑3 של הקורפוס CT‑EBM‑SP, מאגר של 1,200 טקסטים של ניסויים קליניים בספרדית הכולל כמעט 300,000 מילים. מומחים אנושיים עברו על הטקסטים וסימנו 23 סוגי ישויות רפואיות, כגון מחלות, תרופות, תוצאות בדיקה וביטויי זמן, וגם סימני שלילה (למשל, «אין היסטוריה של») ואי־ודאות. הם גם תייגו 11 מאפיינים שתופסים פרטים כמו האם אירוע התרחש בעבר או יהיה בעתיד והאם הוא התרחש לחולה עצמו או לחבר משפחה.

להביא מונחים רפואיים לשפה משותפת

אתגר מרכזי ברפואה הוא שאותו מושג יכול להיכתב בדרכים רבות. כדי לפתור זאת, הצוות קישר את רוב הישויות המסומנות לקודים סטנדרטיים מתוך Unified Medical Language System (UMLS), מילון רפואי רב-שפתי עצום. שלב זה, הנקרא נורמליזציה של מושגים, מבטיח שכתיבים או ניסוחים שונים מפנים לאותו מזהה ייחודי. למשל, כמה וריאנטים של «25‑hydroxyvitamin D» ממופים כולם למושג UMLS יחיד. בסך הכל הקורפוס כולל למעלה מ‑87,000 ישויות ויותר מ‑68,000 יחסי גומלין, וכ־82% מהישויות עוברו נורמליזציה בהצלחה. שני מומחים בדקו את הקישורים באופן עצמאי והושגה התאמה גבוהה מאוד, מה שמעיד שהתיוגים מהימנים.

Figure 2
Figure 2.

לכידת הקשרים בין עובדות רפואיות

מעבר לרישום מונחים רפואיים, המערך מתעד כיצד הם מקושרים זה לזה. המחברים תכננו 18 סוגי יחסים כדי ללכוד תבניות שחשובות בניסויים, כגון איזו מנה קשורה לאיזו תרופה, מהו משך הטיפול או איזו מחלה חווה המטופל. יחסים טמפורליים מראים האם אירוע אחד קורה לפני או אחרי אחר, וקישורים אחרים מציינים היכן מחלה מופיעה בגוף או האם ביטוי מציג שלילה או ספק. ביחד, יחסים אלה מאפשרים למחשבים לבנות גרפים של מצבו של המטופל—מיו, איזו תנודה יש לו, איזה טיפול הוא מקבל ובאיזה תזמון—במקום רק לזהות מילים מבודדות.

אימון ובדיקת מודלים מודרניים של בינה מלאכותית

כדי להראות שהקורפוס שימושי במציאות, המחברים כווננו דק מספר מודלים מבוססי טרנספורמר, כולל גרסאות רב-לשוניות של BERT ו‑RoBERTa. הם אימנו את המודלים על שני משימות: חילוץ יחסים, שלומדת לשחזר את הקישורים בין הישויות, ונורמליזציה של מושגים רפואיים, שממפה טקסט לקודי UMLS. במשימת חילוץ היחסים, המודל הטוב ביותר הגיע לציון F1 קרוב ל‑0.88, כלומר זיהה נכון את רוב היחסים עם מעט יחסית טעויות. במשימת נורמליזציה של מושגים, מודל רב-לשוני בשם SapBERT, שהשתמשו בו בלי אימון נוסף, ניחש נכונה את המושג המתאים בניסיון הראשון בכמעט 90% מהמקרים. התוצאות הללו מראות שקורפוסים מתוייגים היטב ובצבע בינוני יכולים להניע מודלים מדויקים ויעילים אפילו ללא מערכות שפה כלליות ורחבות היקף.

מדוע המשאב הזה חשוב לטיפול עתידי

הקורפוס CT‑EBM‑SP והמודלים הנלווים מספקים בסיס לכלים שיכולים לנתח אוטומטית טקסטים של ניסויים קליניים בספרדית, להתאים אותם לרשומות מטופלים ולתמוך בגילוי קוהורטות בבתי חולים. מאחר שהנתונים מותאמים לסטנדרטים רפואיים בינלאומיים ועברו בדיקה קפדנית על ידי מומחים, הם יכולים גם לסייע בפיתוח משאבים דומים לשפות אחרות שבהן קיימים פחות כלים דיגיטליים. במונחים יומיומיים, עבודה זו עוסקת בהקלה ובביטחון בכך שמטופלים מתאימים יקבלו הצעות לניסויים הנכונים, מה שמאיץ גילויים רפואיים ומקל על העומס על אנשי המקצוע בתחום הבריאות.

ציטוט: Campillos-Llanos, L., Valverde-Mateos, A., Capllonch-Carrión, A. et al. Transformer-based relation extraction and concept normalization using an annotated clinical trials corpus. Sci Data 13, 280 (2026). https://doi.org/10.1038/s41597-026-06608-6

מילות מפתח: ניסויים קליניים, כריית טקסטים רפואיים, בריאות בספרדית, מודלי טרנספורמר, רפואה מבוססת ראיות