Clear Sky Science · ru

GPT-4o для автоматизированного определения последующих обследований на основе радиологических отчетов из клинической практики

· Назад к списку

Почему важны более осмысленные контрольные сканирования

Когда пациенту делают КТ или МРТ, история не заканчивается на получении изображений. Радиологи также должны решить, нужны ли последующие сканирования и когда их проводить, чтобы отслеживать опухоли, проверять подозрительные участки или подтверждать эффективность лечения. Эти решения могут означать разницу между ранним выявлением заболевания и избыточным облучением, расходами и тревогой для пациента. В исследовании был поставлен актуальный вопрос: может ли современная система искусственного интеллекта, GPT-4o, помочь стандартизировать такие решения о последующем наблюдении, чтобы пациенты получали последовательную помощь в соответствии с руководящими принципами?

Figure 1
Figure 1.

Проблема противоречивых рекомендаций

Профессиональные общества публикуют подробные рекомендации о том, когда и как повторять визуализацию для многих видов рака и случайно выявленных находок. Тем не менее в повседневной практике радиологи часто расходятся во мнениях о последующем наблюдении. Одни быстро назначают повторные сканирования; другие действуют осторожнее. Предыдущие исследования показали, что вероятность рекомендации дальнейшей визуализации может варьировать почти в семь раз между радиологами, рассматривающими схожие случаи. Многие предложенные планы не полностью соответствуют опубликованным руководствам, из-за чего одни пациенты подвергаются большему числу обследований, чем необходимо, а другие — риску пропустить своевременные проверки. Такая неоднородность подталкивает к созданию инструментов, которые могли бы мягко направлять практику в сторону более последовательных, основанных на доказательствах решений.

Как было организовано исследование

Исследователи протестировали GPT-4o, крупную языковую модель, предназначенную для понимания и генерации текста, на 100 реальных радиологических случаях из двух немецких больниц. Все случаи касались взрослых пациентов, которым проводили КТ или МРТ по онкологическим показаниям в четырех ключевых областях: голова и шея, печень, легкие и поджелудочная железа. Для каждого случая модель получала полный письменный отчет, включая анамнез, находки на сканировании и заключение радиолога. GPT-4o поставили одну задачу: на основе этой информации предложить точный метод последующего визуального исследования (например, КТ или МРТ) и сроки следующего сканирования. Тот же вопрос отвечали радиолог‑ординатор и опытный врач-рентгенолог с сертификатом.

Оценка качества в сравнении с рекомендациями

Чтобы оценить эти рекомендации, двое старших радиологов, не знавших, чьи ответы какие, сравнили все предложения с основными международными руководствами онкологических и радиологических обществ. Они оценивали каждое предложение по четырем критериям: охвачены ли все релевантные находки, требующие контроля; был ли выбран подходящий метод визуализации; насколько точны предложенные сроки; и общий качественный балл по пятибалльной шкале. По сути эксперты спрашивали: сохраняет ли этот план безопасность пациента, соответствует ли правилам и избегает ли ненужных обследований?

Figure 2
Figure 2.

Как ИИ сравнивался с людьми

Во всех 100 случаях общая оценка качества последующего наблюдения у GPT-4o сопоставима с оценкой опытного радиолога и превзошла ординатора. Медианный глобальный балл модели составил 4 из 5, фактически совпадая с экспертом и статистически выше, чем у стажера. GPT-4o полностью или частично верно определил сроки в 96% случаев, обойдя ординатора (75%) и немного превзойдя эксперта (90%). Модель также допустила наименьшее число потенциально вредных ошибок во времени проведения. GPT-4o охватил все находки, требующие наблюдения, в 92% случаев, что сопоставимо с ординатором и по этому показателю явно лучше эксперта. При выборе типа исследования модель показала почти равный результат с двумя людьми-чтецами. Наилучшие результаты были в области визуализации легких, печени и поджелудочной железы, где алгоритмы руководств особенно хорошо стандартизированы; показатели были несколько ниже у всех участников для более сложной области головы и шеи.

Что это может значить для будущего ухода

Исследование показывает, что GPT-4o может служить надежным помощником при решениях о последующем визуальном обследовании, работая примерно на уровне опытного радиолога и во многих аспектах лучше, чем стажер. Используемая как инструмент поддержки принятия решений, а не замена человека, такая система может помочь сократить число ненужных сканирований, уменьшить задержки в критически важном наблюдении и снизить нагрузку на загруженные радиологические отделения, при этом приводя практику в соответствие с установленными рекомендациями. Авторы, однако, подчеркивают, что человек-эксперт должен оставаться главным: модель все еще может неверно интерпретировать отчеты, ее внутренние механизмы непрозрачны, и исследование включало только 100 онкологических случаев из двух центров. Прежде чем такие инструменты можно будет безопасно интегрировать в повседневные клинические рабочие процессы, потребуются более крупные проспективные испытания и защищенные локальные развертывания.

Цитирование: Kaya, K., Müller, L., Persigehl, T. et al. GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine. Sci Rep 16, 12587 (2026). https://doi.org/10.1038/s41598-026-40317-9

Ключевые слова: последующее наблюдение в радиологии, крупные языковые модели, поддержка медицинских решений, онкологическая визуализация, GPT-4o