Clear Sky Science · ru

Гибридная LSTM-GRU структура для классификации рака лёгких с использованием алгоритма GWO-WOA для настройки гиперпараметров и BPSO для выбора признаков

· Назад к списку

Почему это важно для повседневного здоровья

Ранняя диагностика рака лёгких может спасти жизни, но многие люди не проходят сложные обследования до тех пор, пока не становится слишком поздно. В этом исследовании изучается, можно ли с помощью простых анкетных опросов — о возрасте, курении, симптомах и повседневных привычках — в сочетании с современным искусственным интеллектом выявлять людей с высоким риском задолго до появления тяжёлого заболевания. Максимально используя доступные и недорогие анкеты вместе с интеллектуальными компьютерными моделями, работа указывает путь к более быстрым и доступным инструментам скрининга, которые в будущем могли бы поддерживать врачей и программы общественного здравоохранения по всему миру.

Figure 1
Figure 1.

Превращение простых вопросов в полезные сигналы

Исследователи работали с двумя публичными наборами данных с сайта Kaggle, которые в сумме охватывали более 3300 человек. Вместо медицинских изображений каждая запись содержит 15 пунктов, которые вы могли бы увидеть в формуляре клиники: возраст, пол, статус курения, пожелтение пальцев, кашель, одышка, боль в груди и аналогичные факторы риска и симптомы, а также метку, указывающую на наличие рака лёгких. Поскольку реальная анкетная информация бывает неряшливой, команда сначала очистила данные, исправив пропуски, удалив дубликаты и унифицировав кодирование ответов в обоих наборах. Они также привели признаки к сопоставимым шкалам и применили метод балансировки, чтобы скорректировать сильный перекос в сторону случаев рака в меньшем наборе, что помогло модели избежать предвзятости в сторону предсказания только доминирующего класса.

Позволяя компьютеру выбирать самые информативные вопросы

Не каждый вопрос формы одинаково полезен для выявления заболевания, и избыточное число признаков может запутать модель. Чтобы сосредоточиться на наиболее значимых переменных, авторы использовали метод поиска, вдохновлённый роями — Бинарную частичную оптимизацию роя (BPSO). Проще говоря, множество кандидатных «наборов вопросов» тестируются параллельно и перемещаются по пространству вариантов, копируя и улучшая лучшие образцы. Со временем этот процесс остановился на компактных наборах примерно из семи ключевых вопросов, которые постоянно выделяли такие признаки, как курение, пожелтение пальцев, кашель, боль в груди, хрипы, одышка и хронические заболевания. Эти сфокусированные наборы повысили точность на несколько процентных пунктов по сравнению с использованием всех 15 вопросов, а также сделали итоговую модель более прозрачной и быстрой в работе.

Figure 2
Figure 2.

Более «умный» движок для распознавания закономерностей в ответах

Чтобы преобразовать ответы на анкету в бинарный прогноз наличия рака, команда построила гибридную модель, сочетающую два близких блока глубокого обучения, часто применяемых для последовательных данных: Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU). Хотя ответы в анкете не являются временными рядами, как речь или видео, группы симптомов и привычек формируют закономерности, которые можно рассматривать как короткие последовательности. Модель сначала пропускает выбранные признаки через LSTM-слои, способные выборочно сохранять и забывать информацию, затем через GRU-слои, которые уточняют эти паттерны с меньшим числом внутренних шагов и более низкими вычислительными затратами. Чтобы избежать проектирования методом проб и ошибок, авторы настроили ключевые параметры — такие как скорость обучения, число скрытых единиц, размер батча и dropout — с помощью второго уровня поиска, вдохновлённого природой, который сочетает широкое исследование «серых волков» с тонкой подстройкой «китов». Этот совместный оптимизатор ищет комбинации гиперпараметров, которые стабильно дают высокую точность при кросс-валидации.

Насколько хорошо сработала система

После обучения гибридная модель LSTM–GRU была сравнена с несколькими сильными базовыми методами, включая отдельные сети LSTM и GRU, сверточную нейронную сеть, классические опорные векторы и древовидные методы, такие как случайные леса и градиентный бустинг. На меньшем наборе данных из 309 человек предложенная система правильно классифицировала каждый случай в отложенной тестовой выборке, достигнув 100% по точности, точности положительных прогнозов (precision), полноте (recall) и F1‑мере. На большем наборе из 3000 человек модель оставалась почти безошибочной, показывая около 99.3% точности и аналогично высокие значения по другим метрикам, превосходя все соперничающие глубокие и классические модели. Авторы также продемонстрировали, что их двухэтапный подход — сначала выбор вопросов с помощью ройного поиска, затем настройка гибридной сети с оптимизатором «волков‑и‑китов» — давал более стабильные результаты при повторных прогонках кросс‑валидации по сравнению с более простыми схемами.

Что это значит для будущего скрининга лёгких

В практическом плане эта работа показывает, что тщательно сконструированная система ИИ способна считывать обычные ответы в анкетах и с высокой точностью разделять людей с раком лёгких и без него в эталонных наборах данных. Это не заменяет исследования с помощью томографии, врачей или клинические испытания, и авторы подчёркивают, что их данные ограничены и ещё не готовы к прямому применению в клиниках. Тем не менее подход демонстрирует, что сочетание продуманного отбора вопросов с тонко настроенными глубокими моделями может превратить недорогие формы в мощные инструменты раннего предупреждения. При дальнейшей проверке на больших клинически курируемых популяциях и развитии методов объяснимости, показывающих, почему модель помечает человека как находящегося в группе риска, подобные системы однажды смогут помочь в принятии решений о направлении людей на более детальные обследования, поддерживая более раннюю диагностику при сохранении доступности и неинвазивности скрининга.

Цитирование: Amrir, M.M.S., Ayid, Y.M., Elshewey, A.M. et al. A hybrid LSTM-GRU framework for lung cancer classification using GWO-WOA algorithm for hyperparameter tuning and BPSO for feature selection. Sci Rep 16, 8600 (2026). https://doi.org/10.1038/s41598-026-39020-6

Ключевые слова: скрининг рака лёгких, данные анкеты, глубокое обучение, выбор признаков, медицинский ИИ