Clear Sky Science · ru

Многоцентровая многофункциональная оценка больших языковых моделей в интерпретации аудиограмм чистого тона для пациентов

· Назад к списку

Почему отчёты слуховых тестов так трудно понять

Многие люди уходят с приёма после теста слуха с листом, усыпанным точками и линиями, и лишь с краткой пометкой от врача. Для неспециалистов эти отчёты по аудиограммам чистого тона практически невозможно расшифровать, хотя они влияют на решения, меняющие жизнь — о слуховых аппаратах, лечении и повседневном общении. В этом исследовании задаются вопросом, смогут ли современные чат‑боты на базе больших языковых моделей превратить эти технические диаграммы в понятные, успокаивающие объяснения для обычных пациентов.

Преобразование сложных графиков уха в простой язык

Аудиограммы чистого тона — это эталонный тест для измерения того, как мы слышим разные тона, от низких грохотов до высоких частот. Получающийся отчёт больше похож на физический эксперимент, чем на медицинскую сводку. В то же время обученные специалисты по слуху во многих регионах мира находятся в дефиците, особенно в территориях с ограниченными медицинскими ресурсами. Исследователи увидели возможность: если чат‑боты смогут «читать» эти графики и объяснять результаты понятным языком, они могли бы помочь пациентам раньше и полнее понять своё состояние слуха, поддерживая цель Всемирной организации здравоохранения «слуховое здоровье для всех».

Figure 1
Figure 1.

Проверка нескольких чат‑ботов

Команда собрала 140 реальных отчётов по слуховым тестам из двух центров в Китае, удалила личные данные и сгенерировала стандартизированные версии графиков аудиограмм. Затем они попросили восемь разных больших языковых моделей, разработанных компаниями как в Китае, так и в США, выполнить три задачи для каждого отчёта: указать степень выраженности потери слуха и её тип (например, связанная с внутренним или наружным ухом), объяснить результаты простым языком для пациента и предложить практические рекомендации, такие как когда обращаться за помощью или рассматривать слуховые аппараты. Все ответы моделей собирались в контролируемых условиях и позже оценивались опытными клиницистами и отдельными добровольцами‑неэкспертами, которые не знали, какая модель дала тот или иной ответ.

Насколько хорошо машины диагностировали потерю слуха

Когда дело доходило до роли виртуального специалиста по слуху, результаты моделей были разными. Лучший по показателям DeepSeek‑V3 правильно оценивал степень потери слуха примерно в двух третях случаев и определял общий тип потери чуть более чем в половине случаев. Другие модели часто показывали худшие результаты, и общая точность оставалась значительно ниже ожидаемой от обученных клиницистов. Исследователи также проверяли альтернативные способы подачи информации моделям, например добавляя более структурированные числовые данные вместе с изображениями графиков. Эти изменения повысили точность для большинства систем, что указывает на то, что способ представления данных может быть столь же важен, как и мощность самой модели.

Полезные объяснения, но тревожные выдумки

Помимо объективной точности, исследование изучало, насколько понятными и заслуживающими доверия были объяснения чат‑ботов. Некоторые модели выдавали длинные, многословные ответы, другие были более краткими. Только модели DeepSeek последовательно писали на уровне, примерно соответствующем среднему образованию, что соответствует рекомендациям по медицинской грамотности крупных медицинских организаций. Однако несколько систем проявили тревожную склонность к «галлюцинациям», выдумывая детали, которых не было в исходных отчётах. Примерно в одном из четырёх ответов некоторых моделей чат‑бот придумывал числа, неверно указывал пороги слуха или рекомендовал несуществующие устройства и нереалистичные пути лечения. Напротив, одна модель Gemini демонстрировала гораздо меньше таких выдумок, хотя её медицинская точность тоже не была самой высокой.

Figure 2
Figure 2.

Что думали эксперты и обычные пользователи

Клиницисты оценивали модели по точности, полноте и практической полезности их ответов. Здесь снова DeepSeek‑V3 и его «сестринская» модель в целом получали высшие оценки за профессиональное качество, предлагая структурированные интерпретации и сфокусированные рекомендации, согласованные с клинической практикой. Однако когда те же ответы оценивали представители общественности, приоритеты менялись. Неспециалисты отдавали предпочтение моделям, ответы которых были проще для восприятия, более разговорными и эмоционально поддерживающими, даже если они не были максимально медицински точными. Модели Gemini особенно хорошо оценивались за понятность, эмпатию и общую удовлетворённость, что подчёркивает напряжение между строгими профессиональными стандартами и потребностями пациент‑ориентированной коммуникации.

Почему это важно для людей с проблемами слуха

Потеря слуха широко распространена, и многие люди никогда не получают понятного объяснения своих результатов тестов. Это исследование показывает, что современные чат‑боты ещё не готовы заменить аудиологов или ставить самостоятельные диагнозы по графикам слуха. Их ошибки и иногда выдуманные детали могут вводить пациентов в заблуждение при использовании без контроля. В то же время у моделей уже есть реальные сильные стороны: они умеют переводить плотные графики в простой язык, давать начальные рекомендации и снижать тревогу у тех, у кого иначе не было бы к кому обратиться. При осторожном использовании, с чётким предупреждением и под наблюдением специалистов по слуху, такие инструменты могут стать полезными помощниками, помогающими сократить пробелы в доступе к уходу, улучшить понимание и поддержать более ранние действия по охране слуха.

Цитирование: Liang, J., Xing, M., Xiang, P. et al. A multicenter multifunctional assessment of large language models in pure-tone audiogram interpretation for patients. npj Digit. Med. 9, 348 (2026). https://doi.org/10.1038/s41746-026-02537-1

Ключевые слова: потеря слуха, аудиограмма чистого тона, большие языковые модели, коммуникация с пациентом, цифровое здравоохранение