Clear Sky Science · he
לאסו סטוכסטי עבור נתונים גנומיים בעלי מימדיות גבוהה מאוד
למצוא את המחטים בערמות הטבע הגנומי
הביולוגיה המודרנית יכולה למדוד עשרות אלפי גנים בו־זמנית, אך במחקרים קליניים יש לעתים רק כמה מאות חולים. באי־השוויון הזה חבויים קבוצות קטנות של גנים שהן אכן מהותיות לחיזוי סיכון למחלות או הישרדות. מאמר זה מציג את "לאסו סטוכסטי", שיטה סטטיסטית שנועדה לחשוף באמינות את אותם גנים ממרחבי נתונים גנומיים רועשים, גם כאשר מספר הגנים גדול בהרבה ממספר המטופלים.
מדוע הבחירה הנכונה של גנים כל כך קשה
חוקרים מסתמכים לעתים על כלים כגון LASSO, שמקטינים את השפעתם של גנים לא חשובים לכיוון האפס תוך שמירה על הגנים המידעיים ביותר. עם זאת, גרסאות קלאסיות של LASSO מתקשות כאשר מספר הגנים עולה בהרבה על מספר הדגימות, כפי שנפוץ בגנומיקה של סרטן. LASSO סטנדרטי יכול לבחור לכל היותר מספר גנים השווה למספר המטופלים, והוא נוטה להתעלם מגנים שמתנהגים בצורה דומה זה לזה. שיפורים מוקדמים שמוסיפים עונשים נוספים יכולים להתמודד עם חלק מהקורלציה הזו, אך הם עלולים לטשטש משמעות ביולוגית על ידי אילוץ גנים קשורים לפעול כאילו כולם משפיעים על התוצאה באותו הכיוון.
בנייה של דגימות אקראיות נקיות יותר
פתרון מבטיח הוא להתאים שוב ושוב LASSO על תת־קבוצות קטנות אקראיות של גנים ואז לשלב את התוצאות. עם זאת, שיטות "בוטסטראפ" אלו סובלות עדיין משלוש בעיות: גנים מקושרים עלולים לבטל זה את זה, רבים מהגנים נבחרים לעתים נדירות או אף לא נבחרים כלל, והאקראיות הטהורה הופכת את הבחירה הסופית ללא יציבה. לאסו סטוכסטי מטפל בבעיות אלה ישירות באמצעות סכמת דגימה חדשה הנקראת בוטסטראפ מבוסס־קורלציה. במקום לבחור גנים באקראי, השיטה מעדיפה במודע גנים הפחות קשורים לאלו שכבר נבחרו, וכך מייצרת קבוצות קטנות יותר של גנים שתלויות זו בזו במידה מועטה יותר. כמו כן היא מוודאת שכל גן משמש אותו מספר פעמים על פני ריצות הבוטסטראפ, כדי שאף גן לא יוזנח באופן לא הוגן. 
מרמזים מקומיים אל קבוצה גלובלית של גנים
לאחר בניית תת־הקבוצות הנקיות האלו, לאסו סטוכסטי רושם עד כמה גדול מקדם כל גן על פני כל התאמות הבוטסטראפ. הערך הממוצע המוחלט הזה הופך ל"ציון מקומי" המשקף עד כמה בעקביות הגן חשוב. במקום לבדוק באופן ממצה כל שילוב אפשרי, השיטה בונה מודלים מועמדים על ידי הוספת גנים לפי סדר ציוניהם המקומיים ובוחנת עד כמה כל מועמד חוזה היטב תוצאות על נתוני אימות נפרדים. כך היא מגיעה לקבוצת גנים קומפקטית שהאותות המשולבים שלה מסבירים בצורה הטובה ביותר את הנתונים, תוך שימוש בהרבה פחות ניסיונות מאשר שיטות מסדר־צעד קונבנציונליות.
לבדוק אילו גנים באמת משמעותיים
כדי לעבור מ"נבחרים לעתים קרובות" ל"משכנע סטטיסטית", המחברים מציגים מבחן t דו‑שלבי. ראשית, הם בודקים האם הממוצע של מקדמי הגן על פני הבוטסטראפ שונה באופן ברור מאפס, ומסמנים אותו כפוטנציאלית משמעותי. לאחר מכן, בין המועמדים הללו הם שואלים האם ההשפעה של כל גן גדולה מהגודל האופייני של השפעות כל המועמדים. רק גנים שעוברים את שני המבחנים מוכרזים כמשמעותיים. מאחר שמבחנים אלה נשענים על הערכות רבות מהבוטסטראפ, לאסו סטוכסטי יכול לזהות בביטחון יותר גנים משמעותיים ממספר המטופלים—משהו של-ASSO הרגיל אינו יכול לעשות. 
להוכיח את שוּמוֹ במדמות וסיווגי סרטן
המחברים משווים את לאסו סטוכסטי מול מספר גרסאות מובילות של LASSO באמצעות סימולציות שנועדו לחקות מחקרים גנומיים אמיתיים: מספר עצום של גנים, קורלציות חזקות, ואותות "אמיתיים" ידועים. בתרחישים שונים, השיטה החדשה מוצאת את הגנים הנכונים לעתים תכופות יותר, מעריכה את השפעותיהם בדיוק רב יותר ונשארת יציבה מריצה לריצה. לאחר מכן הם פונים לנתוני ביטוי גנים ממאגר The Cancer Genome Atlas עבור גידולי מוח, כולל גליאובלסטומה אגרסיבית. לאסו סטוכסטי מדגיש מאות גנים שפעילותם קשורה להישרדות החולים ומצביע על מסלולים ביולוגיים — כגון איתות ודרכי מטבוליזם של תרופות — שיש להם תמיכה בלתי תלויה בספרות, מה שמרמז שהשיטה לא רק חדה סטטיסטית אלא גם סבירה ביולוגית.
מה המשמעות עבור חולים וחוקרים
בעיני הלא־מומחים, המסר המרכזי הוא שלאסו סטוכסטי הוא מסנן חכם יותר עבור נתוני גנטיקה גדולים. הוא מסייע למדענים להפריד בין גנים הקשורים באמת למחלה לרעש סטטיסטי, גם כאשר הנתונים מוגבלים והגנים מקושרים קשרים חזקים. על ידי אספקת רשימות גנים והערכות השפעה מדויקות ויציבות יותר, הוא יכול לחדד את החיפוש אחר סמני ביומארקר, מטרות תרופתיות וסיגנוניות פרוגנוסטיות בסרטן ומחלות מורכבות אחרות. אף על פי שהודגם על רגרסיה ליניארית, אותו מסגרת יכולה להשתלב במודלים של הישרדות ובעיות סיווג, וכך להרחיב את השפעתה האפשרית על מחקר ביו‑רפואי.
ציטוט: Baek, B., Jo, J., Kang, M. et al. Stochastic LASSO for extremely high-dimensional genomic data. Sci Rep 16, 5250 (2026). https://doi.org/10.1038/s41598-026-35273-3
מילות מפתח: בחירת תכונות גנומיות, נתונים בעלי מימדיות גבוהה, שיטות LASSO, ביטוי גנים בסרטן, גילוי סמנים ביולוגיים