Clear Sky Science · he
למידה בלתי מפוקחת חושפת חלבונים חדשים המקושרים למחלות בנתוני פרוטאומיקה אנושית רב־ממדיים
רמזי דם נסתרים לעין
הדם שלנו מלא חלבונים המשקפים בשקט מה קורה בתוך גופנו הרבה לפני שנתחיל להרגיש חולים. רופאים כבר משתמשים בכמה מהחלבונים האלה בבדיקות, אך הטכנולוגיה המודרנית מסוגלת כעת למדוד אלפי חלבונים בבת אחת. המחקר הזה שואל שאלה פשוטה בעלת השלכות גדולות: אם נאפשר למחשב לחקור בחופשיות מפות עצומות של חלבוני דם מבלי לומר לו מה לחפש, האם הוא יוכל לגלות קשרים חדשים למחלות שלא חשבנו לבדוק?
להניח לנתונים לדבר בעד עצמם
רוב האלגוריתמים הרפואיים מאומנים עם תגיות ברורות כמו "בריא" או "סובל מלחץ דם גבוה". גישה זו חזקה אך עלולה לפספס דפוסים בלתי צפויים, במיוחד מול אלפי מדידות לכל אדם. כאן, החוקרים פנו בכיוון ההפוך: הם השתמשו בלמידה "בלתי מפוקחת", שמקבצת אנשים אך ורק על בסיס דמיון בדפוסי חלבוני הדם שלהם, בלי לדעת מי חולה במה. הצוות עבד עם משאב עצום — UK Biobank — והתמקד בכמעט 53,000 משתתפים שדמם נבדק עבור 2,923 חלבונים שונים. המטרה הייתה לבדוק האם מיתוסים טבעיים במרחב המספרים הזה יסתנכרנו עם מחלות אמיתיות ויחשפו חשודים חדשים בקרב החלבונים.

שתי דרכים לאיתור קבוצות חבויות
עבודה עם נתונים כה עשירים מביאה איתה חסמים מעשיים: לעתים מדידות חסרות, וכמות החלבונים עלולה לטבוע אותות חשובים. כדי להתמודד עם זה, המחברים בנו מסגרת דו־נתיבית שהם קוראים לה DIRAM/COD. אחד המסלולים (DIRAM) חותך את הנתונים כדי להימנע מערכי חסר, מפחית את המורכבות לשתי ממדים ואז מחפש "איים" צפופים של אנשים דומים. המסלול השני (DIRCOD) ממלא תחילה ערכי חסר בהערכות מדוקדקות, ואז משתמש בשיטה למציאת קהילות המושאלת מתחום מדעי הרשת כדי לזהות קבוצות. שני המסלולים עוברים זיקוק חוזר ונשנה, ובסופו של דבר הניבו 55 אשכולות מובחנים של משתתפים עם טביעות אצבע פרוטאומיות שונות באופן משמעותי.
אשכולות המשקפים מחלות אמיתיות
לאחר שהאשכולות הוגדרו, הצוות בדק כיצד הגיל, המין ובעיקר האבחנות הרפואיות התפלגו ביניהם. אשכולות מסוימים היו מועשרים במצבים חמורים כגון איספקת איברים, תרומות איברים וסרטן, מה שמרמז שטביעות החלבונים שלהם תפסו את הביולוגיה של חולים מאוד חולים. המחברים התרכזו לאחר מכן בשלוש מצבים: צליאק, יתר לחץ דם ולוקמיה. הם חקרו אילו חלבונים נטו להיות גבוהים או נמוכים באופן יוצא דופן באשכולות שבהם מחלות אלה היו נפוצות יותר. על ידי "שחזור" קבוצות עשירות במחלה באמצעות אותם חלבונים בלבד וספים פשוטים, הם הראו כי דפוסי החלבונים האלה עקבו בחוזקה אחר סיכויי המחלה — גם כאשר ערבבו משתתפים מכל רחבי המחקר.
חשודים חלבוניים חדשים ויחסים משתנים
הגישה הזו עשתה יותר מאשר לאשר שחקנים מוכרים; היא הצביעה על מועמדים חדשים. עבור יתר לחץ הדם בלטו חלבונים כגון UBE2L6, HNRNPUL1 ו‑BECN1, שכולם קושרו בעבר לבעיות כלי דם או לב בעבודות אחרות. עבור צליאק, IGF2BP3 עלה כחשוב במיוחד, בהתאמה לרמזים מוקדמים שזה מסייע לשימור מחסום המעי, לצד חלבונים מבטיחים אחרים כמו NRXN3 ו‑CACNB1. באשכולות הקשורים ללוקמיה, מספר חלבונים — כולל LRCH4, WDR46, SERPINB1 ו‑NUB1 — הפגינו התנהגות משתנה. לא רק שרמותיהם היו שונות, אלא שגם האופן שבו עלו וירדו יחד השתנה, מרמז על חיבור מחדש של מערכות הבקרה הפנימיות בגוף בסרטן ובמחלות אוטואימוניות.

ממפות דם לרפואה העתידית
כדי להבין ריבוי חלבונים בבת אחת, החוקרים גם דחסו אותם לציר יחיד המסכם שינויים בדפוסים כלליים. לאורך ציר זה עלה בהדרגה הסיכוי לסבול מיתר לחץ דם או צליאק, והמגמה נשמרה גם כאשר הם הרחיבו את הניתוח לכלל המשתתפים במחקר. לקורא שאינו מומחה, המסקנה ברורה: על ידי מתן חופש לאלגוריתמים לסדר אנשים על בסיס אלפי חלבוני דם, נוכל למצוא קבוצות טבעיות הקשורות לבריאות, לאשר סמנים ידועים ולחשוף חדשים. ככל שביובנקים יתפחו לעשרות ואלפי אלפי אנשים ולעוד חלבונים, סוג זה של חקירה בלתי מפוקחת עשוי לסייע לרופאים לזהות מחלות מוקדם יותר, להבין מדוע חלק מהאנשים חולים ואחרים לא, ולהצביע על מטרות חדשות לטיפולים עתידיים.
ציטוט: Bernard, E., Wang, Y., Chen, M. et al. Unsupervised learning reveals novel disease-associated proteins in high-dimensional human proteomic data. Sci Rep 16, 10185 (2026). https://doi.org/10.1038/s41598-026-41385-7
מילות מפתח: חלבוני דם, למידה בלתי מפוקחת, סמנים ביולוגיים, רפואה מדויקת, סיכון למחלה