Clear Sky Science · ru
UltraReporter для преобразования устных диагностических подсказок в структурированные ультразвуковые отчёты с помощью больших языковых моделей
Превращая разговор в сэкономленное время
Когда врачи выполняют УЗИ, им приходится одновременно решать две ответственные задачи: тщательно сканировать пациента и при этом быстро набивать или щёлкать для составления подробного отчёта. Эта бумажная работа может занимать больше времени, чем само сканирование, и подвержена усталости и мелким, но важным ошибкам. В исследовании представлен UltraReporter — система искусственного интеллекта, которая слушает короткие фразы, которые врачи уже произносят во время обследования, и автоматически превращает их в отшлифованный, структурированный отчёт примерно за одну секунду. Для пациентов это обещает более быстрые приёмы и более последовательную документацию; для клиницистов — способ вернуть время и снизить выгорание.
Новый помощник в кабинете УЗИ
Во многих больницах ультразвук — основной инструмент визуализации, применяемый при исследовании печени, желчного пузыря, почек, щитовидной железы и других органов. Его скорость и безопасность привели к такому объёму исследований, что сонографы и рентгенологи испытывают сильное давление по части отчетности. Традиционные попытки автоматизировать составление отчётов либо расшифровывали длинные диктовки, либо пытались напрямую интерпретировать изображения. Обе стратегии слабо работают в реальных клиниках: полная диктовка всё ещё занимает минуты и требует редактирования, а системы, опирающиеся только на изображение, часто неверно читают шумные УЗ-изображения. UltraReporter вместо этого вписывается в уже существующие рабочие привычки врачей. Во время сканирования они естественно проговаривают короткие подсказки вроде «киста печени один целых две на один целых один». UltraReporter слушает, преобразует эти устные подсказки в текст, а затем разворачивает их в полный отчёт по шаблону, который можно проверить и подписать.

Создание данных из тонкого воздуха
Проектирование такой системы сталкивается с ключевой проблемой: практически не существует пар реальных устных подсказок, сопоставленных с окончательными ультразвуковыми отчётами. Исследователи решили это с помощью многоагентного конвейера искусственного интеллекта, который фактически генерирует реалистичные учебные данные из уже имеющихся текстовых отчётов. Один ИИ — «симулятор подсказок» — учится сжимать полные отчёты в короткие, похожие на врачебные буллеты фразы. Второй ИИ — «генератор отчётов» — учится разворачивать такие подсказки обратно в хорошо структурированные повествования. Третий — «оценщик качества» — оценивал каждую синтетическую пару по точности, полноте, ясности и другим критериям, отбрасывая те, которые не соответствовали стандартам. Этот процесс дал более 21 000 качественных пар «подсказка–отчёт», охватывающих сотни анатомических областей и тысячи заболеваний, обеспечив системе богатую основу без необходимости дополнительной ручной разметки.
Обучение повадкам больницы
Помимо общемедицинских знаний, реальные отчёты должны соответствовать локальным привычкам: знакомым заголовкам, любимым фразам и определённым способам описания распространённых находок. Чтобы это учесть, команда добавила второй этап обучения под названием тонкая настройка с опорой на шаблоны. Здесь UltraReporter учится не только на парах подсказка–отчёт, но и на библиотеке почти 200 реальных институциональных шаблонов, сопоставленных с исследуемым органом и заболеванием. Это подталкивает модель к использованию стандартной формулировки и оформления, улучшая согласованность между пациентами и врачами. Финальный этап обучения, называемый оптимизацией предпочтений, ориентированной на дефекты, учит систему замечать и исправлять собственные тонкие ошибки. Когда модель путает измерение или пропускает ключевую деталь, другой ИИ помечает дефект и создаёт тренировочные примеры, которые явно предпочитают исправленную версию, что повышает клиническое рассуждение модели.

От речи к отчёту за одну секунду
Чтобы работать в загруженном кабинете, система должна справляться с шумной реальной речью. Авторы совмещают стойкий к шуму распознаватель речи с языковой моделью, настроенной на медицинский китайский, чтобы фразы вроде «портальная вена» не были услышаны как бытовые слова. Распознанная подсказка затем передаётся обученной модели UltraReporter, которая почти мгновенно генерирует структурированный отчёт с описанием находок и впечатлений. В систему встроены механизмы безопасности: она оценивает свою уверенность в каждом фрагменте текста, особенно в числах и диагнозах. Любой фрагмент с низкой уверенностью подсвечивается в интерфейсе врача, привлекая внимание к месту, требующему второго взгляда. В исследованиях с читателями независимые специалисты часто оценивали отчёты UltraReporter как равные или превосходящие те, которые написали врачи, а при рутинном использовании большинство сгенерированных отчётов получили оценки на уровне оригиналов.
Что это значит для пациентов и клиницистов
UltraReporter демонстрирует, что относительно компактная языковая модель — значительно меньшая, чем многие широко освещаемые системы — может соответствовать или даже превосходить экспертную работу в узкой, практической задаче при условии правильных данных и тщательной подготовки. Превращая короткие фразы, которые врачи уже произносят, в полные стандартизированные отчёты, система способна сократить время на документацию до считанных секунд, не отнимая контроля у клиницистов. Для пациентов это может означать больше времени лицом к лицу и меньше бумажных задержек. Для систем здравоохранения это предлагает рабочую модель: использовать многоступенчатые AI-фреймворки, основанные на локальных шаблонах и человеческом надзоре, чтобы безопасно и масштабируемо трансформировать повседневные клинические процессы.
Цитирование: Hao, P., Zhang, J., Zhang, S. et al. UltraReporter for transforming spoken diagnostic cues into structured ultrasound reports with large language models. Sci Rep 16, 13662 (2026). https://doi.org/10.1038/s41598-026-41439-w
Ключевые слова: отчётность по УЗИ, медицинский ИИ, речь-в-отчёт, клиническая документация, большие языковые модели