Clear Sky Science · ru

Универсальная для устройства мультимодальная система обучения для классификации заболеваний дыхательной системы

· Назад к списку

Почему ваш телефон однажды может помочь проверить лёгкие

Большинство из нас постоянно носит с собой мощный микрофон и компьютер. Что если это повседневное устройство сможет прослушать короткий приступ кашля и обнаружить ранние признаки серьёзного заболевания лёгких, даже если рядом нет врача или дорогостоящего оборудования? В этом исследовании рассматривают, как превратить обычный кашель и немного фоновой информации о человеке в надёжные предупреждения о нескольких распространённых проблемах дыхания, используя искусственный интеллект, работающий на многих разных смартфонах и записывающих устройствах.

Слушая болезнь в простом кашле

Многие заболевания лёгких — от хронической обструктивной болезни лёгких (ХОБЛ) и астмы до инфекций — начинаются с неопределённых жалоб, таких как кашель, мокрота и одышка. Сегодня подтверждение этих состояний обычно требует рентгена грудной клетки, тестов функции лёгких или подробного обследования у специалистов, к которым сложно получить доступ в переполненных клиниках или при ограниченных ресурсах. Инструменты на основе анализа кашля с поддержкой ИИ возникли как недорогая, неинвазивная альтернатива, но до сих пор большинство из них зависели от одного типа устройства записи и рассматривали только звук. Авторы поставили цель создать более умную систему, которая использует аудиозапись кашля вместе с простыми ответами на анкеты и демографическими данными и остаётся точной, даже когда люди записывают себя на разных телефонах и микрофонах дома или в шумных клиниках.

Figure 1
Figure 1.

Построение надёжного цифрового осмотра на основе тысяч пациентов

Команда собрала большую реальную базу данных более чем от 12 000 взрослых амбулаторных пациентов в четырёх больницах. Для каждого участника они записывали не менее десяти секунд добровольного кашля в тихой комнате и прогоняли каждую запись через строгий конвейер контроля качества, чтобы удалить фоновые шумы, речь и недействительные фрагменты кашля. Каждая одобренная запись кашля была преобразована в визуоподобное звуковое представление и подана в аудиомодель, изначально обученную на огромных коллекциях звуков. Одновременно исследователи кодировали простую фоновую информацию — такую как возраст, пол, рост, вес, история курения и ключевые симптомы, например мокрота или одышка — через языковую модель, настроенную для медицинских текстов. Сеть-слияния затем научилась комбинировать эти два потока, чтобы решить, какие из семи заболеваний дыхательной системы наиболее вероятны у каждого человека.

Обучение ИИ игнорировать устройство и фокусироваться на болезни

Главным препятствием для применения в реальном мире является то, что кашель записывается на многих типах телефонов и микрофонов, каждый из которых по‑своему окрашивает звук. Чтобы преодолеть этот «эффект устройства», авторы добавили специальный тренировочный модуль, который пытается определить, какое устройство записало каждый кашель. Одновременно основная модель получает вознаграждение за правильные предсказания болезней и штраф всякий раз, когда её внутренние признаки облегчают распознавание устройства. Такая соревновательная (адверсариальная) схема заставляет систему отбрасывать особенности, зависящие от устройства, и сохранять только паттерны, связанные с болезнью. Дополнительный приём в обучении побуждает модель вести себя последовательно на разных устройствах, что ещё больше стабилизирует работу при встрече с новым оборудованием.

Насколько хорошо система выявляет разные проблемы лёгких

Используя эту архитектуру, модель достигла очень высокой точности в трёх важных задачах скрининга. Для ХОБЛ, которая часто остаётся невыявленной до поздних стадий, система показала площадь под кривой (AUC) около 0,97, что указывает на отличное разделение больных и здоровых. Модель показала сильные результаты, хотя и немного менее идеальные, для инфекций нижних дыхательных путей и для так называемых «тени в лёгких» — участков на снимках, которые могут соответствовать опухолям или структурным изменениям. При одновременной оценке всех семи состояний дыхательной системы, включая сочетания заболеваний у одного пациента, инструмент по‑прежнему превосходил несколько современных альтернатив. Тщательные сравнения показали, что самый сильный сигнал давал аудиофрагмент кашля, в то время как демографические данные и ответы на вопросы добавляли полезный контекст. Адверсариальное обучение последовательно улучшало результаты и, что важно, снижало падение точности при тестировании на кашлях, записанных полностью новыми моделями телефонов.

Figure 2
Figure 2.

От госпитального испытания к повседневному помощнику по здоровью

Хотя модель не готова заменить рентген или оценку специалиста — особенно для редких или «молчащих» проблем, таких как маленькие узелки в лёгких — она демонстрирует реальный потенциал как инструмент сортировки (триажа). На практике это может означать короткую сессию кашля в телефон с последующим быстрым рисковым баллом, помогающим решить, кому нужно дополнительное обследование или наблюдение. Авторы отмечают оставшиеся задачи, включая несбалансированность данных для редких заболеваний, ограниченное этническое разнообразие и необходимость работы в шумной домашней среде. Тем не менее их результаты показывают, что при тщательной разработке система ИИ может «прослушивать» устройство, преодолевать его особенности, объединять простые данные анкеты с записями кашля и предлагать масштабируемую, недорогую помощь для более раннего выявления и мониторинга заболеваний дыхательной системы.

Цитирование: Yang, M., Liu, X., Du, W. et al. A device-invariant multi-modal learning framework for respiratory disease classification. npj Digit. Med. 9, 290 (2026). https://doi.org/10.1038/s41746-026-02445-4

Ключевые слова: анализ кашля, скрининг заболеваний дыхательных путей, мобильное здравоохранение, мультимодальное глубокое обучение, независимый от устройства ИИ