Clear Sky Science · ru

Использование машинного обучения и голоса для многоклассной классификации болезни Паркинсона, хронической обструктивной болезни легких и здоровых контрольных образцов

2026-05-19 · Назад к списку

Слушая болезнь через человеческий голос

Многие из нас редко задумываются о том, сколько информации о нашем здоровье хранится в голосе. Тем не менее тонкие изменения высоты, стабильности или дыхательности могут содержать подсказки о расстройствах, затрагивающих мозг и легкие. В этом исследовании изучали, может ли короткая запись произнесения гласного «а» в смартфон, в сочетании с современными методами машинного обучения, помочь отличить людей с болезнью Паркинсона, с хронической обструктивной болезнью легких (ХОБЛ) и здоровых пожилых людей.

Figure 1. Простые гласные, записанные на телефон, поступают в модель, которая распределяет голоса на группы: Паркинсон, ХОБЛ или здоровые.

Почему болезнь Паркинсона и ХОБЛ влияют на звучание

Болезнь Паркинсона наиболее известна дрожанием и скованностью, но она также часто делает речь тише, более монотонной и менее разборчивой. ХОБЛ, длительное заболевание легких, сужает дыхательные пути и затрудняет дыхание, что может ослаблять голос, делать его охриплым или дыхательным. Хотя обе болезни нарушают простейший акт звукоизвлечения, у врачей до сих пор нет быстрых и объективных голосовых тестов. Большинство ранних работ просили компьютеры различать лишь «пациент» и «здоровый», обычно по одному заболеванию и в рамках одного языка. Авторы поставили более сложную и реалистичную задачу: сможет ли одна система, слушая очень простые речевые звуки на разных языках, разделять людей сразу на три группы?

Как исследователи собрали и подготовили голоса

Команда объединила две большие коллекции голосов, записанные на мобильные устройства. Одна — из проекта mPower — содержала носителей английского языка с болезнью Паркинсона и здоровых добровольцев. Другая, COPDVD, включала шведоговорящих с ХОБЛ и сопоставимых здоровых контрольных участников. Чтобы сделать группы сопоставимыми, исследователи тщательно отобрали схожие по числу мужчин и женщин, близкие по возрасту и количеству записей, в результате получив 96 человек и 1723 пригодные для анализа записи длительного «а». Они удалили участки тишины и превратили каждую запись в описание из 102 чисел, отражающих базовые голосовые характеристики, такие как высота и шероховатость, а также детализированные спектральные отпечатки, известные как мел-частотные кепстральные коэффициенты.

Figure 2. Один голос превращается в акустические шаблоны, проходит через четыре модели, которые голосуют совместно, и в итоге формируются три разделенные голосовые кластера.

Обучение голосующего ансамбля алгоритмов слушать

Вместо того чтобы полагаться на один метод машинного обучения, исследователи собрали «комитет голосующих» из четырех различных классификаторов. Каждый алгоритм анализировал набор признаков записи и выдавал собственное предположение о том, относится ли запись к болезни Паркинсона, ХОБЛ или здоровому контролю, а также вероятность для каждого варианта. Эти вероятности затем усредняли, чтобы итоговый ответ отражал консенсус ансамбля. Чтобы избежать переобучения, команда использовала строгую стратегию обучения: модели настраивали и тестировали многократно на отдельных фолдах данных, а итоговую производительность оценивали на полностью отдельном наборе людей, чьи записи алгоритмы никогда не видели в процессе обучения.

Что система услышала в голосах

На этом независимом тестовом наборе ансамбль достиг примерно 84 процентов общей точности и сбалансированного F1 чуть ниже 0,84, что означает хорошую работу по всем трем группам несмотря на различия в размерах выборок. Система особенно успешно распознавала болезнь Паркинсона, где были наивысшие точность и полнота. Здоровые голоса классифицировались со средней успешностью, тогда как голоса при ХОБЛ оказалось труднее идентифицировать и их чаще путали со здоровыми записями. Примечательно, что Паркинсон и ХОБЛ редко принимали друг за друга, что указывает на то, что их голосовые отпечатки, хотя и отклоняются от нормы, различаются способами, которые алгоритмы могли обнаружить. При анализе того, как гласные занимают акустическое «пространство», определенное резонансными частотами, исследователи обнаружили тонкие, но последовательные сдвиги и расширения между тремя группами, даже несмотря на языковые отличия.

Заглядывая внутрь «черного ящика»

Чтобы понять, что направляло решения системы, команда использовала современный инструмент объясняемости, который присваивает каждому голосовому признаку оценку влияния. Они обнаружили, что наиболее важные акустические черты различались для каждой группы. Возраст, детальные спектральные формы и показатели, связанные с высотой тона, имели значение, но в разных комбинациях для болезни Паркинсона, ХОБЛ и здоровых контрольных. Например, определенные спектральные дескрипторы и формантные паттерны были более влиятельны при ХОБЛ, тогда как отдельные спектральные и тоновые признаки сильнее влияли на классификацию болезни Паркинсона. Эта картина указывает на то, что модель действительно усвоила специфические для заболеваний аспекты произношения длительного гласного, а не просто фиксировала, что голос «необычен».

Что это может значить для повседневной помощи

Проще говоря, работа показывает, что короткое длительное «а», записанное на обычном мобильном устройстве, может содержать достаточно информации для тщательно спроектированной системы машинного обучения, чтобы отличать проблемы голоса, связанные с мозгом, от тех, что связаны с легкими, и обычное старение. Подход не заменяет медицинский диагноз, и требуются более крупные и разнообразные исследования, но он указывает на будущее, где быстрые, неинвазивные голосовые проверки могут помочь врачам в скрининге и мониторинге пациентов с болезнью Паркинсона или ХОБЛ, даже в разных языках и условиях.

Цитирование: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

Ключевые слова: болезнь Паркинсона, ХОБЛ, биомаркер голоса, машинное обучение, мобильное здравоохранение