Clear Sky Science · he
הפעלת ניתוח השוואתי של ביטוי חלבונים בין אינדיקציות באמצעות מאגר פאן-קנסר מקוטלג וזרימת עבודה מותאמת
מדוע השוואת חלבוני סרטן כל כך מסובכת
תרופות נגד סרטן פונות יותר ויותר לאותם מטרות ביולוגיות במספר סוגי גידולים, אך להחליט באיזה מקום המטרה חשובה במיוחד אינו פשוט. כיום פרויקטים ציבוריים גדולים כמו CPTAC של המכון הלאומי לסרטן מייצרים מדידות חלבון מפורטות מאלפי גידולים. עם זאת, מדידות אלה מתבצעות במרכזים שונים, בזמנים שונים, ובשיטות שאינן זהות. כתוצאה מכך, לשאול בפשטות “האם חלבון זה גבוה יותר בסרטן ריאה מאשר בסרטן כליה?” עלול להוביל למסקנות מטעות. המחקר מתאר גישה מעשית ומונחית-נתונים לניקוי, להשלים ולהתאים את מערכי הנתונים המורכבים האלה כך שהשוואות הוגנות בין סוגי סרטן יהפכו אפשריות.
בניית מפת חלבונים משותפת לפאן-קנסר
המחברים מתחילים מאוסף הפאן-קנסר של CPTAC: יותר מאלף גידולים ורקמות נורמליות מתאימות מעשרה סוגי סרטן, כולם נמדדו באמצעות ספקטרומטריית מסה. הניסויים הללו לוכדים אלפי חלבונים לכל מדגם, אך לא תמיד אותם חלבונים בכל גידול, ולא תמיד עם אותה התפלגות כללית בין הקוהורטים. הצוות עיבד מחדש את כל הנתונים הגולמיים באמצעות צינור חישובי אחד כדי לטפל בכל קוהורת בעקביות. לאחר מכן התרכזו בקבוצת ליבה של יותר מ‑10,000 חלבונים "בעייתיים פחות"—חלבונים שהם בשפע סביר ונדיר שהם חסרים לפחות בסוג סרטן אחד—כך שהשוואות חוצות-סרטן יתבססו על מדידות יציבות במקום על אותות מפוזרים.

מילוי החסר מבלי לעוות את התמונה
אפילו לאחר בחירה זהירה, ערכי חלבון רבים עדיין חסרים. חלקם נעדרים באקראי, בדומה לשגיאות כתיב מזדמנות; אחרים חסרים משום שרמת החלבון ירדה מתחת לסף הגילוי של המכשיר. התייחסות לכל הערכים החסרים באותו אופן יכולה להטות את התוצאות. לכן המחברים השתמשו באסטרטגיית "היבריד קוהורט" שמטפלת בתבניות חסר שונות בצורה שונה בתוך כל סוג סרטן. לחלבונים שנראים פשוט תחת-מדגם, הם שואלים מידע מדגימות דומות כדי לאמוד את הערכים החסרים. לחלבונים שנראים בעקביות נמוכים מדי לגילוי, הם משתמשים בשיטה המותאמת לנתונים חסומים משמאל, שמניחה במעשיות ערכים קרובים לגבול התחתון של המכשיר. הגישה המפורטת הזו שואפת לשחזר תמונה ריאליסטית של רמות החלבון מבלי להמציא הבדלים מלאכותיים.
הפיכת התפלגויות להשוואה בין סוגי סרטן
כאשר הפערים מולאו, נשאר עדיין בעיה נוספת: בחלק מהקוהורטים קיימים באופן כללי אותות חלבון גבוהים או תנודתיים יותר ביחס לאחרים, בעיקר בשל גורמים טכניים כגון הכנת מדגם או כיול מכשיר. לתיקון זה, הצוות ממיר את עוצמות החלבון למדד בעל אופי מוחלט ואז בודק שתי אסטרטגיות נירמול. אחת, שנקראת נירמול קוונטילי גלובלי, כופה על כל המדגמים—בין כל סוגי הסרטן והרקמות—את אותה התפלגות כללית של ערכי החלבון. השנייה, "נירמול קוונטילי חלק", מאחדת מדגמים בתוך כל סוג סרטן או רקמה ועדיין מאפשרת הבדלים בין קבוצות. באמצעות בחינה של תבניות השונות וביצוע בדיקות רגישות מרובות, המחברים מראים שנירמול קוונטילי גלובלי מקטין במידה הטובה ביותר הפרשי טכניים בלתי רצויים תוך שמירה על ניגודים ביולוגיים משמעותיים, כגון שינויים בין גידול לרקמה נורמלית.

בדיקה מול נתוני RNA בלתי תלויים
כדי לבדוק האם מאגר החלבון המעובד שלהם מתנהג בריאליות בין סוגי סרטן, המחברים פונים למדידות RNA ממסד הנתונים The Cancer Genome Atlas. עבור קבוצה קטנה של חלבונים שרמותיהם עוקבות בקירוב אחרי ה‑RNA המתאים להן בין סוגי סרטן, הם משווים כיצד סוגי הגידול מדורגים בביטוי חלבון לעומת ביטוי RNA. אם הנירמול חוצי-הסרטן הצליח, דירוגים אלה צריכים להסכים. אכן, השילוב של אימפוטציה היברידית לקוהורט ונירמול קוונטילי גלובלי מניב את ההסכמה הגבוהה ביותר בדירוגים בין חלבון ל‑RNA, ועולה על נתונים ללא נירמול ועל שיטת הנירמול החלופית. בדיקות נוספות מראות שאותות ביולוגיים מרכזיים—כגון אילו חלבונים משתנים בין גידולים לרקמות נורמליות ואילו מסלולים תאיים משתנים—נשארים יציבים ברובם לאחר כל שלבי העיבוד.
ממה זה משמעותי למחקר סרטן עתידי
פשטות דברי, עבודה זו הופכת אוסף רועש ובלתי אחיד של מדידות חלבון לרפרנס משותף אמין יותר להשוואת סרטן. על ידי קבלת החלטות מדוקדקת אילו חלבונים לשמור, כיצד למלא ערכים חסרים וכיצד ליישר התפלגויות בין מחקרים, המחברים יוצרי משאב חלבוני פאן-קנסר שמתאים טוב יותר לנתוני RNA בלתי תלויים ומשמר את הביולוגיה של הגידולים. מאגר נתונים מתואם זה וזרימת העבודה הפתוחה שלו יכולים לסייע לחוקרים לדרג מטרות תרופתיות בין סוגי גידול רבים, לזהות חלבונים בררניים לסרטן, ולהצמיח השערות טיפוליות חדשות—כך שמקצרות הדרך מנתונים רחבי היקף להתקדמות מעשית באונקולוגיה.
ציטוט: Wang, J., Tian, X., Yu, W. et al. Enabling cross-indication protein expression analysis using a curated pan-cancer dataset and a tailored workflow. Sci Rep 16, 14623 (2026). https://doi.org/10.1038/s41598-026-44872-z
מילות מפתח: פרוטאומיקה פאן-קנסר, נירמול ביטוי חלבונים, CPTAC, אימפוטציה של נתונים חסרים, גילוי מטרות בסרטן