Clear Sky Science · ru
Моделирование неопределённости в мультимодальном анализе речи по всему спектру психозов
Слушая скрытые подсказки в повседневной речи
Психоз часто представляют как внезапное и драматическое явление — голоса, видения, утрата контакта с реальностью. Но задолго до кризиса в речи людей могут появляться тонкие изменения: интонация, выбор слов, даже ритм предложений. В этом исследовании изучают, способны ли компьютеры уловить такие слабые сигналы в речи и, что важно, насколько уверенно они это делают. Такой подход указывает путь к будущим инструментам, которые могли бы помочь клиницистам отслеживать психическое состояние более объективно и персонализировать помощь по всему спектру — от незначительного риска до выраженного заболевания.
От неформальной беседы до клинического интервью
Исследователи записали речь 114 немецкоговорящих добровольцев, представлявших весь спектр психозов: людей с ранними психотическими расстройствами и людей без диагноза, но с низким или высоким уровнем психотопичных черт (так называемая шизотипия). Каждый участник выполнял четыре типа речевых заданий — от структурированных клинических интервью до более свободных автобиографических рассказов, пересказа по картинке и повседневной беседы. Эти контексты важны, потому что строго направленное интервью может выявить определённые симптомы, например эмоциональную притуплённость, тогда как открытые повествования способны выявить блуждающие мысли или необычные восприятия. Отбирая разные ситуации, команда могла оценить, насколько надёжно речь сигнализирует о симптомах в условиях, близких к реальным.

Слушая и форму речи, и содержание
Система в исследовании одновременно анализирует две стороны речи. На акустической стороне отслеживаются такие характеристики, как изменение высоты тона, громкость и тонкая структура голоса — в совокупности они отражают экспрессивность, напряжение и беглость речи. На языковой стороне анализируются сами слова — их эмоциональная окраска, фокус на восприятиях или социальных связях и уровень когерентности. Современные нейросети, предварительно обученные на больших коллекциях аудио и текста, преобразуют эти сырые сигналы в компактные числовые отпечатки. Базовая модель затем объединяет эти отпечатки во времени, чтобы в каждый момент оценивать, какой канал — звук или язык — даёт более надёжную подсказку о психическом состоянии человека.
Обучение модели признавать собственную неуверенность
Особенность этой работы в том, что модель не только выдает предсказание, но и оценивает свою неопределённость. Вместо того чтобы рассматривать аудио- и текстовые потоки как фиксированные, она представляет их в виде вероятностных облаков, которые расширяются при шумных или необычных данных. Если запись голоса искажена или человек мямлит, система снижает вес акустики и опирается больше на слова. Если транскрипция ненадёжна или речь сильно фрагментирована, она делает наоборот. Эта учитывающая неопределённость схема слияния, названная Temporal Context Fusion, показала высокую эффективность: она различала группы с низкой шизотипией, высокой шизотипией и ранним психозом с F1-мерой 83% и демонстрировала хорошую калибровку доверия — то есть заявленная уверенность близка к фактической доле правильных решений.

Речевые паттерны, соответствующие разным типам симптомов
Анализ внутренних механизмов модели позволил исследователям определить, какие аспекты речи наиболее стабильно соответствуют различным измерениям симптоматики. Люди с более выраженными позитивными симптомами — такими как необычные переживания или бредовые идеи — как правило, демонстрировали более высокий и более изменчивый тон, быстрые сдвиги в спектре голоса и большие колебания громкости, особенно в свободных рассказах. В их речи также чаще встречались слова, связанные с восприятием (видение, слух, ощущения), и эмоционально насыщенные термины. Напротив, у людей с выраженными негативными симптомами — такими как уход в себя и эмоциональная притуплённость — речь была более монотонной, с ограниченной интонацией и менее гибкой артикуляцией, они использовали меньше слов позитивной эмоциональной окраски и социальных слов. Дезорганизованные черты, как у пациентов, так и у добровольцев с высокой шизотипией, проявлялись нестабильной громкостью, паузами и фрагментированной речью, насыщенной словами риска и когнитивных процессов, что указывает на умственные усилия без чёткой структуры.
Почему это важно для будущей помощи в области психического здоровья
В совокупности результаты показывают: в речи содержатся измеримые следы черт, связанных с психозом, даже у людей без клинического диагноза, и эти следы меняются в зависимости от речевой ситуации. Модель, учитывающая неопределённость, смогла использовать как акустические, так и языковые признаки для отслеживания позитивных, негативных и дезорганизованных проявлений вдоль континуума, одновременно явно сигнализируя о ненадёжности своих доказательств. Для неспециалиста ключевая идея такова: внимательное прослушивание — усиленное ИИ, который осознаёт свои ограничения — в будущем может помочь клиницистам более объективно наблюдать за психическим состоянием, сократить догадки и заметить значимые изменения раньше. Такие инструменты, скорее всего, не заменят человеческое суждение, а станут вторым набором ушей, выделяющим в повседневной речи паттерны, требующие более пристального внимания.
Цитирование: Rohanian, M., Hüppi, R., Nooralahzadeh, F. et al. Uncertainty modeling in multimodal speech analysis across the psychosis spectrum. npj Digit. Med. 9, 218 (2026). https://doi.org/10.1038/s41746-025-02309-3
Ключевые слова: психоз, анализ речи, машинное обучение, оценка психического здоровья, мультимодальный ИИ