Clear Sky Science · he

מסגרת היברידית LSTM-GRU למיון סרטן ריאה באמצעות אלגוריתם GWO-WOA לכיול היפרפרמטרים ו-BPSO לבחירת תכונות

2026-02-13 · חזרה לאינדקס

מדוע זה משמעותי לבריאות היומיומית

איתור סרטן ריאה מוקדם יכול להציל חיים, אך אנשים רבים אינם עוברים בדיקות מתקדמות עד שיהיה מאוחר מדי. מחקר זה בוחן האם בדיקות מבוססות שאלון פשוטות — לגבי גיל, עישון, תסמינים והרגלים יומיומיים — ניתן לשלב עם בינה מלאכותית מודרנית כדי לזהות אנשים בסיכון גבוה הרבה לפני שהמחלה מחמירה. על ידי ניצול מרבי של שאלונים זולים ודגמי מחשב חכמים, העבודה מצביעה לכיוון כלים סריקה מהירים ונגישים יותר שיום אחד עשויים לתמוך ברופאים ובתוכניות בריאות הציבור ברחבי העולם.

הפיכת שאלות פשוטות לאותות שימושיים

החוקרים עבדו עם שני מאגרי נתונים ציבוריים מאתר Kaggle, הכוללים יחד יותר מ‑3,300 אנשים. במקום תמונות רפואיות, כל רישום מכיל 15 פריטים שניתן למצוא בטופס קליניקה: גיל, מין, מצב עישון, צהבת באצבעות, שיעול, קוצר נשימה, כאבי חזה ותכונות וסימפטומים דומים, בתוספת תווית המצביעה האם היה קיום של סרטן ריאה. מאחר שנתוני סקר בעולם האמיתי מלוכלכים, הצוות קודם לכן ניקו את המידע על ידי תיקון ערכים חסרים, הסרת כפילויות והתאמת אופן קידוד התשובות בין שני מאגרי הנתונים. הם גם התאימו את הקנה מידה של המספרים כך שכל התכונות יהיו בטווחים דומים והשתמשו בשיטת איזון כדי לתקן נטייה חזקה למקרי סרטן במאגר הקטן יותר, מה שעזר למודל להימנע מהטייה לחיזוי רק של המחלקה הרוביית.

לאפשר למחשב לבחור את השאלות המשמעותיות ביותר

לא כל שאלה בטופס מועילה באותה מידה לזיהוי מחלה, ושימוש ביותר מדי שדות דווקא עלול לבלבל את המודל. כדי להתמקד במה שחשוב באמת, המחברים השתמשו באסטרטגיית חיפוש בהשראת רוחות עדרית הנקראת אופטימיזציה בינארית בעזרת חלקיקים (Binary Particle Swarm Optimization). בפשטות, קבוצת מועמדות של "סטי שאלות" נבדקים במקביל, והם נעים במרחב האפשרויות תוך העתקה ושיפור של הביצועים הטובים ביותר. עם הזמן, התהליך התייצב על קבוצות קומפקטיות של כ‑7 שאלות מפתח, כאשר באופן חוזר צצו תכונות כמו עישון, צהבות באצבעות, שיעול, כאבי חזה, צפצופים, קוצר נשימה ומחלה כרונית. מערכי תכונות ממוקדים אלה שיפרו את הדיוק בכמה נקודות אחוז בהשוואה לשימוש ב‑15 השאלות המלאות, תוך שהפכו את המודל הסופי לקל יותר לפרשנות ומהיר יותר להפעלה.

מנוע חכם יותר לקריאת דפוסים בתשובות

כדי להפוך תשובות שאלון לניבוי כן/לא של סרטן, הצוות בנה מודל היברידי המשלב שתי יחידות למידה עמוקה קשורות שבדרך כלל משתמשים בהן לסדרות: זיכרון לטווח קצר-ארוך (LSTM) ויחידת חישוב מווסתת (GRU). אף על פי שתשובות לסקר אינן סדרות זמן כמו דיבור או וידאו, קבוצות של תסמינים והרגלים יוצרות עדיין דפוסים שניתן לטפל בהם כסדרות קצרות. המודל מזין ראשית את השאלות הנבחרות דרך שכבות LSTM שיכולות לאחסן ולשכוח מידע באופן סלקטיבי, ואז דרך שכבות GRU שמחדדות את הדפוסים הללו עם פחות צעדים פנימיים ועלות חישובית נמוכה יותר. כדי להימנע מעיצוב ניסיוני של פרמטרים, המחברים כיוונו הגדרות קריטיות — כגון שיעור הלמידה, מספר היחידות הנסתרות, גודל אצווה ו‑dropout — באמצעות שכבת חיפוש נוספת בהשראת הטבע המשלבת חקירה רחבה של "זאבי האפור" עם כיוונונים עדינים של "לווייתנים". הממקסם המשותף הזה מחפש קומבינציות היפרפרמטרים שמניבות באופן עקבי דיוק גבוה במהלך אימות צולב.

עד כמה המערכת עשתה עבודה טובה

לאחר האימון, מודל ה‑LSTM–GRU ההיברידי נבדק מול מספר בסיסים חזקים, כולל רשתות LSTM ו‑GRU עצמאיות, רשת קונבולוציה, מכונות וקטור תומך מסורתיות ושיטות מבוססות עץ כמו יער אקראי ו‑gradient boosting. במאגר הקטן יותר של 309 אנשים, המערכת המוצעת סיווגה נכונה כל מקרה בחלק המבחן שהוסר, והגיעה ל‑100% דיוק, חיסון, זיכרון וניקוד F1. במאגר הגדול יותר של כ‑3,000 אנשים היא נותרה כמעט מושלמת, עם כ‑99.3% דיוק וציון גבוה דומה באמצעי ביצוע אחרים, והתגברה על כל המודלים המתחרים הן בלמידה עמוקה והן בשיטות קלאסיות. המחברים גם הראו כי האסטרטגיה הדו‑שלבית שלהם — בחירת שאלות באמצעות חיפוש העדר, ולאחר מכן כוונון הרשת ההיברידית עם האופטימייזר של זאבים ולווייתנים — נתנה תוצאות יציבות יותר לאורך ריצות אימות צולב חוזרות לעומת תצורות פשוטות יותר.

מה זה אומר עבור סינון ריאה בעתיד

באופן פרקטי, עבודה זו מראה שמערכת AI מעוצבת בקפידה יכולה לקרוא תשובות שאלון רגילות ולהבחין בדיוק רב בין אנשים עם וללא סרטן ריאה במאגרי בenchmark. היא אינה מחליפה סריקות, רופאים או ניסויים קליניים, והמחברים מדגישים שהנתונים שלהם מוגבלים ולא מוכנים עדיין לשימוש ישיר בבתי חולים. עם זאת, הגישה ממחישה כי שילוב של בחירת שאלות חכמה עם מנועי למידה עמוקה מכוילים היטב יכול להפוך טפסים זולים לכלי אזהרה מוקדמת רב‑עוצמה. עם בדיקות נוספות על אוכלוסיות גדולות יותר ומנוהלות קלינית ושיטות הסבר משופרות שיבהירו מדוע המודל מסמן אדם בסיכון גבוה, מערכות דומות עשויות יום אחד לסייע בהחלטה מי צריך להפנות להדמיה מפורטת יותר, ולתמוך באבחון מוקדם תוך שמירה על סינון נגיש ולא פולשני.

ציטוט: Amrir, M.M.S., Ayid, Y.M., Elshewey, A.M. et al. A hybrid LSTM-GRU framework for lung cancer classification using GWO-WOA algorithm for hyperparameter tuning and BPSO for feature selection. Sci Rep 16, 8600 (2026). https://doi.org/10.1038/s41598-026-39020-6

מילות מפתח: סינון סרטן ריאה, נתוני שאלון, למידה עמוקה, בחירת תכונות, בינה רפואית