Clear Sky Science · ru
Двухэтапная гибридная схема отбора генов LASSO–HHO для точной диагностики болезни Альцгеймера
Почему это исследование важно для здоровья мозга
Болезнь Альцгеймера лишает людей памяти и независимости, и у нас по‑прежнему нет простых, широко доступных инструментов для её раннего выявления. Современные лабораторные методы позволяют измерять активность десятков тысяч генов в крошечном образце мозга или крови, но этот поток данных трудно превратить в однозначные ответы для врачей. В статье представлен умный двухэтапный способ просеивания генетической информации и выделения небольшого набора генов, который способен диагностировать болезнь Альцгеймера с чрезвычайно высокой точностью, сохраняя при этом скорость и практичность для реального применения.
Преобразование «стога сена» генов в несколько подсказок
Каждый набор данных по экспрессии генов при Альцгеймере в этом исследовании включает более 20 000 генов, но лишь несколько сотен пациентов. Этот дисбаланс похож на попытку узнать личность человека по тысячам вопросов, имея ответы только от небольшой группы добровольцев: легко принять случайный шум за значимый сигнал. Авторы справляются с этой проблемой, сначала применяя метод LASSO, который действует как мощный фильтр. Он «сжимает» большинство сигналов по генам до нуля и оставляет только те, которые действительно помогают отличить больных Альцгеймером от здоровых контролей. Сам по себе этот первый этап часто сокращает список генов более чем на 99%, резко уменьшая сложность и риск переобучения, при этом сохраняя достаточно информации для прогнозирования болезни.
Второй интеллектуальный проход при необходимости
После начальной обрезки схема при условии запускает второй этап, основанный на природе вдохновлённом поисковом алгоритме Harris Hawks Optimization. Здесь каждый «ястреб» представляет возможный поднабор генов, и ястребы многократно корректируют свои позиции в поисках комбинаций, улучшающих диагностику. Существенно, что этот этап не всегда используется. Если одного LASSO достаточно, чтобы достичь по крайней мере 99% точности и выбранный набор генов содержит менее 40 генов, процесс на этом останавливается. В противном случае поиск на основе «ястребов» дополнительно уточняет выжившие гены, руководствуясь правилом оценки, которое сильно поощряет высокую диагностическую точность, но при этом предпочитает меньшие наборы генов. Такая адаптивная конструкция избегает напрасной траты вычислительных ресурсов, когда более простое решение уже достаточно хорошо.

Проверка метода на практике
Авторы оценили свою схему — названную LHGS — на четырёх общедоступных наборах данных по Альцгеймеру, полученных из разных участков мозга и разных исследовательских групп. Они обучили стандартный классификатор машинного обучения, опорную векторную машину, используя только выбранные гены, и оценивали качество по общим метрикам, таким как точность, точность положительных предсказаний (precision) и полнота (recall). В некоторых наборах данных LASSO сам по себе был достаточен для достижения идеальной или почти идеальной точности: в одном наборе хватило всего трёх генов, чтобы правильно разделить все образцы больных и здоровых. В более сложных наборах добавление поиска на основе «ястребов» повысило точность до 100%, при этом итоговый набор содержал примерно от 11 до 37 генов. По сравнению с рядом других популярных методов оптимизации, двухэтапный подход оказался и более точным, и значительно более быстрым, поскольку тяжёлая фаза поиска выполняется лишь в резко сокращённом пространстве, созданном LASSO.
Обнаружение перспективных маркеров генов
Помимо создания хорошего предиктора, исследование также выделяет конкретные гены, которые могут играть важную роль в биологии Альцгеймера. Анализируя степень вклада каждого гена на этапе LASSO, авторы выделили короткие списки последовательно влиятельных генов в каждом наборе данных. Некоторые, такие как TRPM7 и гены, вовлечённые в стрессовые сигнальные пути, контроль воспаления и синаптическую коммуникацию, уже связаны со здоровьем мозга и нейродегенерацией. Другие изучены менее полно, что указывает на новые направления для лабораторных исследований. Тот факт, что надёжную диагностику можно получить всего на нескольких десятках или даже нескольких генах, говорит о том, что будущие тесты могут опираться на небольшие целевые панели, а не на широкие дорогие массивы.

Что это значит для будущей диагностики Альцгеймера
Для непрофессионала главный вывод таков: становится возможным считывать молекулярную «подпись» Альцгеймера по удивительно небольшому числу генов, выбранных из десятков тысяч тщательным двухэтапным процессом. Схема LHGS показывает, что сочетание быстрого статистического фильтра с селективным вторым проходом даёт и точность, и скорость, делая подход более пригодным для будущих клинических инструментов. Авторы при этом предупреждают, что их результаты требуют подтверждения на больших и более разнообразных группах пациентов, а ранние эксперименты могли несколько переоценить эффективность, — тем не менее работа указывает путь к генетическим тестам крови или тканей, которые могли бы ранжировать риск Альцгеймера с помощью компактного, тщательно подобранного набора маркеров генов.
Цитирование: Asiry, O., El-Gawady, A., Eltoukhy, M.M. et al. LASSO–HHO two-stage hybrid gene selection framework for accurate Alzheimer’s disease diagnosis. Sci Rep 16, 13393 (2026). https://doi.org/10.1038/s41598-026-48742-6
Ключевые слова: диагностика Альцгеймера, экспрессия генов, отбор признаков, машинное обучение, биомаркеры