Clear Sky Science · ru

Гибридная модель отбора признаков и классификации для работы с высокоразмерными данными на основе метаэвристического алгоритма для диагностики рака мозга

2026-03-03 · Назад к списку

Почему более умные тесты при опухолях мозга важны

Опухоли мозга — одни из самых смертоносных видов рака, и врачам по-прежнему трудно быстро и точно различать их типы. Традиционные лабораторные тесты могут быть медленными, а современные генетические исследования порождают лавину данных: десятки тысяч измерений экспрессии генов на каждого пациента. В этом исследовании предложен компьютерный метод, который просеивает этот генетический шум и выявляет небольшое множество ключевых генов, помогающих отличать опасные опухоли от менее агрессивных, с целью поддержать более точную диагностику и в конечном итоге — более обоснованный выбор лечения.

Превращая море генов в полезные подсказки

Исследователи работали с общедоступным набором данных по раку мозга, содержащим 130 образцов пациентов, по каждому из которых измеряли более 54 000 генов. Такие высокоразмерные данные мощны, но проблематичны: измерений генов гораздо больше, чем пациентов, и многие гены не имеют отношения к задаче или дублируют друг друга. Если подать такие данные напрямую в алгоритм обучения, это может привести к ложным закономерностям и плохой работе на новых пациентах. Главная задача — сохранить только наиболее информативные гены, выбросив остальные, при этом не потеряв важные биологические сигналы.

Двухэтапный подход к поиску самых показательных генов

Для решения этой задачи команда разработала гибридный конвейер отбора признаков. На первом этапе быстрый статистический фильтр «минимальная избыточность, максимальная релевантность» (mRMR) просматривает все гены и отбирает те, которые тесно связаны с раком мозга и при этом максимально различаются между собой. Это быстро сокращает список генов с десятков тысяч до более управляемого набора. На втором этапе поисковый метод, вдохновлённый охотничьим поведением хищных птиц — Harris Hawks Optimization, рассматривает каждое возможное подмножество генов как кандидата и итеративно «охотится» за комбинациями, дающими лучшие результаты классификации. В сумме эти стадии снижают количество генов с исходных 54 676 до всего 50, при этом сохраняя суть заболевания.

Обучение машин проводить более чёткую диагностику

После выделения компактного набора генов авторы обучили несколько моделей машинного обучения для различения пяти категорий рака мозга и в более общем виде — для разделения злокачественной и менее опасной ткани. Ключевой моделью выступила машина опорных векторов (SVM), которая требует настройки нескольких чувствительных параметров, существенно влияющих на её поведение. Вместо ручной подгонки команда использовала три стратегии оптимизации — рой частиц (Particle Swarm Optimization), дифференциальную эволюцию (Differential Evolution) и Harris Hawks Optimization — чтобы систематически найти лучшие настройки. Эффективность оценивали при помощи строгой многократной кросс-валидации и дополнительных проверок, таких как bootstrap-ресемплинг и анализ обучающих кривых, чтобы убедиться, что модели не просто запоминают небольшой набор данных.

Насколько хорошо работает система и что значат выбранные гены

С применением гибридного отбора признаков и оптимизации машина опорных векторов достигла точности около 96% на данных по раку мозга, заметно превосходя более традиционные методы, такие как деревья решений. Метод также сократил число генов с более чем 54 000 до 50, при этом сохранив и даже улучшив предсказательную способность. Многие отобранные гены уже известны своей ролью в росте клеток, репарации ДНК, формировании сосудов или иммунном ответе при опухолях мозга, что придаёт биологическую достоверность выборам компьютера. Это означает, что модель не только хорошо классифицирует, но и указывает исследователям на потенциальные биомаркеры, достойные лабораторного изучения.

Что это может значить для пациентов

Проще говоря, исследование показывает, что можно сжать огромный объём генетических данных до небольшого, значимого «подписи» генов, который с высокой надёжностью помогает различать типы опухолей мозга. Хотя работа основана на относительно небольшой выборке пациентов и требует проверки на больших и более разнообразных популяциях, она намечает путь к более быстрым ген-ориентированным диагностическим инструментам, которые будут одновременно точными и интерпретируемыми. Если эти подходы подтвердят и интегрируют в клиническую практику, они могут дать врачам более веские основания при выборе терапии и помочь учёным сосредоточиться на коротком списке генов, наиболее вероятно влияющих на возникновение, рост и ответ опухолей мозга на лечение.

Цитирование: Manhrawy, I.I.M., Fathi, H., Alsekait, D.M. et al. Hybrid feature selection and classification model using high-dimensional data based on a metaheuristic algorithm for brain cancer diagnosis. Sci Rep 16, 11909 (2026). https://doi.org/10.1038/s41598-026-41573-5

Ключевые слова: диагностика рака мозга, экспрессия генов, отбор признаков, машинное обучение, биомаркеры