Clear Sky Science · ru
Гибридная LSTM-GRU структура для классификации рака лёгких с использованием алгоритма GWO-WOA для настройки гиперпараметров и BPSO для выбора признаков
Почему это важно для повседневного здоровья
Ранняя диагностика рака лёгких может спасти жизни, но многие люди не проходят сложные обследования до тех пор, пока не становится слишком поздно. В этом исследовании изучается, можно ли с помощью простых анкетных опросов — о возрасте, курении, симптомах и повседневных привычках — в сочетании с современным искусственным интеллектом выявлять людей с высоким риском задолго до появления тяжёлого заболевания. Максимально используя доступные и недорогие анкеты вместе с интеллектуальными компьютерными моделями, работа указывает путь к более быстрым и доступным инструментам скрининга, которые в будущем могли бы поддерживать врачей и программы общественного здравоохранения по всему миру.

Превращение простых вопросов в полезные сигналы
Исследователи работали с двумя публичными наборами данных с сайта Kaggle, которые в сумме охватывали более 3300 человек. Вместо медицинских изображений каждая запись содержит 15 пунктов, которые вы могли бы увидеть в формуляре клиники: возраст, пол, статус курения, пожелтение пальцев, кашель, одышка, боль в груди и аналогичные факторы риска и симптомы, а также метку, указывающую на наличие рака лёгких. Поскольку реальная анкетная информация бывает неряшливой, команда сначала очистила данные, исправив пропуски, удалив дубликаты и унифицировав кодирование ответов в обоих наборах. Они также привели признаки к сопоставимым шкалам и применили метод балансировки, чтобы скорректировать сильный перекос в сторону случаев рака в меньшем наборе, что помогло модели избежать предвзятости в сторону предсказания только доминирующего класса.
Позволяя компьютеру выбирать самые информативные вопросы
Не каждый вопрос формы одинаково полезен для выявления заболевания, и избыточное число признаков может запутать модель. Чтобы сосредоточиться на наиболее значимых переменных, авторы использовали метод поиска, вдохновлённый роями — Бинарную частичную оптимизацию роя (BPSO). Проще говоря, множество кандидатных «наборов вопросов» тестируются параллельно и перемещаются по пространству вариантов, копируя и улучшая лучшие образцы. Со временем этот процесс остановился на компактных наборах примерно из семи ключевых вопросов, которые постоянно выделяли такие признаки, как курение, пожелтение пальцев, кашель, боль в груди, хрипы, одышка и хронические заболевания. Эти сфокусированные наборы повысили точность на несколько процентных пунктов по сравнению с использованием всех 15 вопросов, а также сделали итоговую модель более прозрачной и быстрой в работе.

Более «умный» движок для распознавания закономерностей в ответах
Чтобы преобразовать ответы на анкету в бинарный прогноз наличия рака, команда построила гибридную модель, сочетающую два близких блока глубокого обучения, часто применяемых для последовательных данных: Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU). Хотя ответы в анкете не являются временными рядами, как речь или видео, группы симптомов и привычек формируют закономерности, которые можно рассматривать как короткие последовательности. Модель сначала пропускает выбранные признаки через LSTM-слои, способные выборочно сохранять и забывать информацию, затем через GRU-слои, которые уточняют эти паттерны с меньшим числом внутренних шагов и более низкими вычислительными затратами. Чтобы избежать проектирования методом проб и ошибок, авторы настроили ключевые параметры — такие как скорость обучения, число скрытых единиц, размер батча и dropout — с помощью второго уровня поиска, вдохновлённого природой, который сочетает широкое исследование «серых волков» с тонкой подстройкой «китов». Этот совместный оптимизатор ищет комбинации гиперпараметров, которые стабильно дают высокую точность при кросс-валидации.
Насколько хорошо сработала система
После обучения гибридная модель LSTM–GRU была сравнена с несколькими сильными базовыми методами, включая отдельные сети LSTM и GRU, сверточную нейронную сеть, классические опорные векторы и древовидные методы, такие как случайные леса и градиентный бустинг. На меньшем наборе данных из 309 человек предложенная система правильно классифицировала каждый случай в отложенной тестовой выборке, достигнув 100% по точности, точности положительных прогнозов (precision), полноте (recall) и F1‑мере. На большем наборе из 3000 человек модель оставалась почти безошибочной, показывая около 99.3% точности и аналогично высокие значения по другим метрикам, превосходя все соперничающие глубокие и классические модели. Авторы также продемонстрировали, что их двухэтапный подход — сначала выбор вопросов с помощью ройного поиска, затем настройка гибридной сети с оптимизатором «волков‑и‑китов» — давал более стабильные результаты при повторных прогонках кросс‑валидации по сравнению с более простыми схемами.
Что это значит для будущего скрининга лёгких
В практическом плане эта работа показывает, что тщательно сконструированная система ИИ способна считывать обычные ответы в анкетах и с высокой точностью разделять людей с раком лёгких и без него в эталонных наборах данных. Это не заменяет исследования с помощью томографии, врачей или клинические испытания, и авторы подчёркивают, что их данные ограничены и ещё не готовы к прямому применению в клиниках. Тем не менее подход демонстрирует, что сочетание продуманного отбора вопросов с тонко настроенными глубокими моделями может превратить недорогие формы в мощные инструменты раннего предупреждения. При дальнейшей проверке на больших клинически курируемых популяциях и развитии методов объяснимости, показывающих, почему модель помечает человека как находящегося в группе риска, подобные системы однажды смогут помочь в принятии решений о направлении людей на более детальные обследования, поддерживая более раннюю диагностику при сохранении доступности и неинвазивности скрининга.
Цитирование: Amrir, M.M.S., Ayid, Y.M., Elshewey, A.M. et al. A hybrid LSTM-GRU framework for lung cancer classification using GWO-WOA algorithm for hyperparameter tuning and BPSO for feature selection. Sci Rep 16, 8600 (2026). https://doi.org/10.1038/s41598-026-39020-6
Ключевые слова: скрининг рака лёгких, данные анкеты, глубокое обучение, выбор признаков, медицинский ИИ