Clear Sky Science · ru

Оценка больших языковых моделей для генерации диагностического заключения по результатам МРТ мозга: многоцентровый бенчмарк и исследование с участием рентгенологов

· Назад к списку

Почему умнее оформленные отчёты МРТ важны для пациентов

Когда вам делают сканирование мозга, радиологу нужно превратить тысячи оттенков серого в ясное утверждение о том, что не в порядке — или что всё выглядит нормально. Это итоговое «заключение» направляет важнейшие решения при инсульте, опухолях мозга, инфекциях и других состояниях. Но чтение МРТ мозга сложно и занимает много времени, а перегруженные врачи могут допускать ошибки, особенно в загруженных клиниках. В этом исследовании проверяли, могут ли продвинутые языковые модели искусственного интеллекта надёжно помогать радиологам преобразовывать письменные описания находок в точные, быстрые и согласованные диагностические заключения.

Преобразование сырых описаний сканирования в понятные ответы

МРТ мозга даёт серию изображений, которые радиологи описывают в разделе «находки», отмечая, например, где расположено образование, насколько оно по интенсивности и есть ли отёк. Главная задача — объединить все эти детали в диагностическое заключение, такое как «острый инфаркт» или «абсцесс мозга». Исследователи собрали 4293 отчёта МРТ мозга из трёх больниц Китая, охватывающих 16 диагностических категорий, покрывающих более 95% повседневных состояний мозга. Затем они протестировали 10 различных больших языковых моделей — продвинутых текстовых ИИ — чтобы оценить, насколько каждая из них умеет превращать письменные находки в правильные диагнозы.

Figure 1
Figure 1.

Крупные, хорошо обученные модели показали лучшие результаты

Команда сравнивала модели от примерно 8 миллиардов до 671 миллиарда внутренних параметров — это примерно аналогично переходу от знаний студента-медика к опыту экспертной команды. Самая крупная модель, названная DeepSeek‑R1, последовательно демонстрировала наилучшие результаты, когда ей предоставляли как структурированные версии находок, так и ключевую клиническую информацию — возраст пациента, симптомы или анамнез травмы. В этих условиях DeepSeek‑R1 с высокой чувствительностью и специфичностью определял наличие или отсутствие конкретных заболеваний мозга и достигал точности на уровне пациента выше 87%. Мелкие модели, особенно с менее чем 10 миллиардами параметров, показывали значительные трудности, часто правильно определяя лишь около 30% случаев — что существенно ниже приемлемого уровня для клинической практики.

Почему структура и контекст делают ИИ умнее

Исследователи не просто подавали моделям свободный текст. Они также использовали другую систему ИИ, чтобы реструктурировать отчёты в чёткие, стандартизованные элементы: где расположены образования, сколько их и как они проявляются на разных последовательностях МРТ. Добавление этой структуры и объединение её с короткой клинической заметкой дали заметный эффект. Для DeepSeek‑R1 переход от сырых свободных текстов к структурированным находкам вместе с клиническим контекстом повысил чувствительность, общую точность и сводные показатели производительности. Проще говоря, ИИ работал гораздо лучше, когда ему давали более чистую, организованную информацию и небольшой объём сведений о пациенте — аналогично тому, как люди‑радиологи работают эффективнее при аккуратных отчётах и ясной клинической задаче.

Figure 2
Figure 2.

От единственной догадки к ранжированному короткому списку

В реальной практике радиологи часто предлагают более одного возможного диагноза в сложных случаях. Исследование проверяло два подхода к запросу: просить ИИ дать только один диагноз или попросить три наиболее вероятных варианта, каждый с кратким обоснованием. Разрешение на три ранжированных диагноза резко улучшило показатели. При этом «дифференциальном диагнозе» правильный ответ оказывался где‑то в тройке лучших предположений более чем для 97% пациентов. Это оказалось особенно полезно в сложных случаях, таких как опухоли, кровоизлияния или воспалительные заболевания, где единственная принудительная догадка может ввести в заблуждение, тогда как короткий, обоснованный список эффективно направляет дальнейшие исследования и лечение.

Реальное влияние на загруженных радиологов

Чтобы понять, имеют ли эти улучшения практическое значение, авторы провели исследование с участием шести радиологов — трёх младших и трёх старших — которые интерпретировали 500 отчётов МРТ мозга с помощью и без помощи DeepSeek‑R1. С поддержкой ИИ общая диагностическая точность выросла примерно с трёх четвертей случаев до более чем 90%, а важный показатель качества, объединяющий точность и полноту, также заметно улучшился. Время чтения сократилось с примерно минуты на случай до менее минуты, что может означать десятки сэкономленных часов на одного радиолога в год. Наибольшую выгоду получили младшие радиологи: их результаты приблизились к уровню опытных специалистов, хотя исследование также подчёркивает, что врачи должны оставаться осторожными и не слепо доверять ИИ, особенно при очень тонких состояниях, таких как некоторые типы внутричерепных кровоизлияний.

Что это значит для будущих отчётов по сканированию мозга

Для пациентов основной вывод в том, что мощные языковые ИИ‑системы уже могут помогать радиологам преобразовывать сложные описания МРТ в более ясные и точные диагностические заключения, особенно если их кормить хорошо структурированной информацией и ключевыми клиническими данными. Эти инструменты не заменяют человеческую экспертизу, но могут служить вторым внимательным взглядом, предлагая обоснованные варианты и экономя время. При более широкой валидации и безопасной интеграции в больничные системы такая поддержка ИИ может сделать отчёты МРТ быстрее, надёжнее и более единообразными — в конечном счёте улучшая уход за пациентами с инсультами, опухолями, инфекциями и многими другими заболеваниями мозга.

Цитирование: Wang, ML., Zhang, RP., Wu, WJ. et al. Evaluation of large language models for diagnostic impression generation from brain MRI report findings: a multicenter benchmark and reader study. npj Digit. Med. 9, 187 (2026). https://doi.org/10.1038/s41746-026-02380-4

Ключевые слова: диагностика МРТ мозга, радиологический искусственный интеллект, большие языковые модели, клиническая поддержка принятия решений, DeepSeek-R1