Clear Sky Science · he
תהליכי הרמוניזציה של נתוני סרטן למודל הנתונים המשותף של Observational Medical Outcomes Partnership
מדוע איחוד נתוני סרטן חשוב
טיפול בסרטן מייצר כמות גדולה של מידע מבתי חולים, מאגרים, מעבדות ואפילו משאלונים למטופלים, אך רשומות אלה מאוחסנות לעתים קרובות בפורמטים שונים שאינם "מדברים" זו עם זו בקלות. מאמר זה מסביר כיצד חוקרים תכננו תהליך ברור שלב-אחר-שלב להמרת המידע המפוזר הזה לפורמט משותף ומסודר כך שניתן יהיה להשתמש בו באופן אמין יותר במחקרים על דפוסי טיפול, הישרדות ובריאות האוכלוסייה.
אי רבים של נתונים במקום תמונה משותפת אחת
נתוני סרטן מפורטים במידה יוצאת דופן. הם מתארים סוגי גידול, שלב, סמני גנטיים, טיפולים לאורך זמן, תופעות לוואי ותוצאות, והם באים ממקורות רבים כגון רשומות רפואיות אלקטרוניות, רישומי סרטן, טענות ביטוח, ביובנקים ושאלונים. מכיוון שלכל מקור יש מבנה וכללי שמות משלו, שילובם קשה ולרוב גורר חוסרים או אובדן משמעות. מודל הנתונים המשותף של Observational Medical Outcomes Partnership (OMOP CDM) מציע מבנה אחיד לנתוני בריאות, והוא בשימוש גובר ברחבי העולם. עם זאת, ההנחיות הקיימות להעברת נתוני סרטן למודל זה היו כלליות, מה שהשאיר קבוצות מפתחות לייצר פתרונות מקומיים משלהן.

מה פרויקטים קודמים מגלים
המחברים בחנו 20 פרויקטים, ממקורות כמו כתבי עת מדעיים והצגות מקהילה בינלאומית של מדעי הנתונים, שניסו כבר להמיר נתוני סרטן לפורמט OMOP. רובם התרכזו במחקר ברמת המטופל, כגון בחינת תוצאות טיפולים מסוימים, או בשאלות ברמה האוכלוסייתית כמו מגמות הישרדות ומעקב מחלה. רישומי סרטן ורשומות בתי חולים היו מקורות הנתונים הנפוצים ביותר, בדרך כלל ממרכזים אירופיים, ופחות דוגמאות מהאמריקות ומאסיה. צוותים רבים השתמשו בכלים מיוחדים מהקהילה של OMOP לחקר נתוני המקור, עיצוב המיפויים, בדיקת איכות וגזירת שיגרות טיפול, אך הדרכים שבהן ארגנו את עבודתם היו שונות במידה רבה.
מכשולים מרכזיים שחוזרים על עצמם
בכלל הפרויקטים עלו שוב ושוב שלושה סוגי בעיות. ראשית, הנתונים ההתחלתיים היו מבולגנים או לא שלמים: פרטים חשובים נעדרו, נשמרו בטקסט חופשי, או היו מפוזרים על פני מערכות שונות, ושילוב מקורות רבים דרש ניקוי וטיפוח כבדים. שנית, מיפוי קודים ותיאורים מקומיים למונחי OMOP הסטנדרטיים היה מאתגר, במיוחד לפרטים עשירים של סרטן כמו סטייג'ינג, תוצאות מבחני ביומארקרים ושילובי תרופות מורכבים; אוצר המילים הסטנדרטי לעתים לא היה בעל פירוט מספק, וטקסט חופשי או נתוני גנום דרשו כלים נוספים ומומחיות. שלישית, לאחר שבנו מיפוי, הוא לא נשאר קבוע; מודל הנתונים המשותף, אוספים אוצרי מילים וכלי התוכנה מתפתחים במהירות, ולכן קבוצות צריכות תוכניות לשמירה על המערכות מעודכנות לאורך זמן.
מפת דרכים בחמישה שלבים עבור צוותים
בהסתמך על דפוסים מהסקירה ועל משוב ממומחי נתוני סרטן, המחברים לך תהליך הרמוניזציה כללי בחמישה שלבים המותאם לאונקולוגיה. השלב הראשון, ייזום, כולל הרכבת צוות בין-תחומי, הסכמה על מטרת המחקר, הבנת הכללים המקומיים והיכרות עם אקוסיסטמת OMOP. ניתוח דרישות חופר אחר כך בנתוני המקור: אילו סוגי נתונים קיימים, כיצד הם מובנים, עד כמה הם שלמים ואמינים, והיכן הסיכונים הגדולים ביותר. תכנון העיצוב מתרגם הבנה זו לתוכנית מפורטת כיצד להפוך ולמפות את הנתונים, אילו כלים להשתמש, כיצד לטפל באפיזודות טיפול כגון קורסי טיפול, וכיצד להעריך הצלחה.

מרשומות גולמיות לנתוני מחקר ניתנים לשימוש
השלב הרביעי, יישום טכני, מממש את התוכנית. כאן הצוותים מנקים ומטפחים את הנתונים, מוציאים חתיכות רלוונטיות, ממירים אותן לטבלאות OMOP ובודקים איכות באופן שיטתי. מוקד מיוחד ניתן לבניית לוחות זמנים של מסע הסרטן של כל מטופל באמצעות טבלאות OMOP המייצגות אפיזודות ואירועים מקושרים, כגון אבחנות, פרוצדורות וחשיפות לתרופות. השלב החמישי, תחזוקה, מכיר בכך שהעבודה אינה מסתיימת: אוצרי המילים, כלי התוכנה והידע האונקולוגי משתנים, ולכן יש לתזמן עדכונים, לעקוב אחרי בעיות חדשות ולדייק מיפויים וקונבנציות. שתי עקרונות חוצי-חתך תומכים בכל השלבים: מחזורים חוזרים של בדיקה ושיפור, ותיעוד קפדני של החלטות כך שהעבודה תהיה שקופה וניתנת לשימוש חוזר.
מה זה אומר עבור מטופלים וחוקרים
לקוראים שאינם מומחים, המסר המרכזי הוא ששימוש טוב יותר בנתוני סרטן קיימים תלוי פחות בגאדג'טים חדשים ויותר בשיטות משותפות וזהירות לארגון המידע. מאמר זה מציע מפת דרכים מעשית שכל בית חולים או קבוצת מחקר יכולים להתאים כדי לאחד רשומות סרטן מפוזרות לפורמט משותף, תוך כיבוד כללים וטכנולוגיות מקומיות. על ידי הקלה על איסוף נתונים ממספר מרכזים ומדינות, התהליך המוצע שואף לתמוך במחקרים אמינים יותר על אופן הטיפול בסרטן ועל מצבן של מטופלים בשגרה הקלינית, ולסייע לרופאים ולמקבלי החלטות להתבסס על תמונה ברורה ומלאה יותר.
ציטוט: Nada, I.P., Bonacina, S. Data harmonization processes of cancer data into the observational medical outcomes partnership common data model. Sci Rep 16, 15993 (2026). https://doi.org/10.1038/s41598-026-53570-9
מילות מפתח: נתוני סרטן, מודל הנתונים המשותף של OMOP, הרמוניזציה של נתונים, ראיות מהעולם האמיתי, אינפורמטיקה בריאותית