Clear Sky Science · ru
GPT-4o для автоматизированного определения последующих обследований на основе радиологических отчетов из клинической практики
Почему важны более осмысленные контрольные сканирования
Когда пациенту делают КТ или МРТ, история не заканчивается на получении изображений. Радиологи также должны решить, нужны ли последующие сканирования и когда их проводить, чтобы отслеживать опухоли, проверять подозрительные участки или подтверждать эффективность лечения. Эти решения могут означать разницу между ранним выявлением заболевания и избыточным облучением, расходами и тревогой для пациента. В исследовании был поставлен актуальный вопрос: может ли современная система искусственного интеллекта, GPT-4o, помочь стандартизировать такие решения о последующем наблюдении, чтобы пациенты получали последовательную помощь в соответствии с руководящими принципами?

Проблема противоречивых рекомендаций
Профессиональные общества публикуют подробные рекомендации о том, когда и как повторять визуализацию для многих видов рака и случайно выявленных находок. Тем не менее в повседневной практике радиологи часто расходятся во мнениях о последующем наблюдении. Одни быстро назначают повторные сканирования; другие действуют осторожнее. Предыдущие исследования показали, что вероятность рекомендации дальнейшей визуализации может варьировать почти в семь раз между радиологами, рассматривающими схожие случаи. Многие предложенные планы не полностью соответствуют опубликованным руководствам, из-за чего одни пациенты подвергаются большему числу обследований, чем необходимо, а другие — риску пропустить своевременные проверки. Такая неоднородность подталкивает к созданию инструментов, которые могли бы мягко направлять практику в сторону более последовательных, основанных на доказательствах решений.
Как было организовано исследование
Исследователи протестировали GPT-4o, крупную языковую модель, предназначенную для понимания и генерации текста, на 100 реальных радиологических случаях из двух немецких больниц. Все случаи касались взрослых пациентов, которым проводили КТ или МРТ по онкологическим показаниям в четырех ключевых областях: голова и шея, печень, легкие и поджелудочная железа. Для каждого случая модель получала полный письменный отчет, включая анамнез, находки на сканировании и заключение радиолога. GPT-4o поставили одну задачу: на основе этой информации предложить точный метод последующего визуального исследования (например, КТ или МРТ) и сроки следующего сканирования. Тот же вопрос отвечали радиолог‑ординатор и опытный врач-рентгенолог с сертификатом.
Оценка качества в сравнении с рекомендациями
Чтобы оценить эти рекомендации, двое старших радиологов, не знавших, чьи ответы какие, сравнили все предложения с основными международными руководствами онкологических и радиологических обществ. Они оценивали каждое предложение по четырем критериям: охвачены ли все релевантные находки, требующие контроля; был ли выбран подходящий метод визуализации; насколько точны предложенные сроки; и общий качественный балл по пятибалльной шкале. По сути эксперты спрашивали: сохраняет ли этот план безопасность пациента, соответствует ли правилам и избегает ли ненужных обследований?

Как ИИ сравнивался с людьми
Во всех 100 случаях общая оценка качества последующего наблюдения у GPT-4o сопоставима с оценкой опытного радиолога и превзошла ординатора. Медианный глобальный балл модели составил 4 из 5, фактически совпадая с экспертом и статистически выше, чем у стажера. GPT-4o полностью или частично верно определил сроки в 96% случаев, обойдя ординатора (75%) и немного превзойдя эксперта (90%). Модель также допустила наименьшее число потенциально вредных ошибок во времени проведения. GPT-4o охватил все находки, требующие наблюдения, в 92% случаев, что сопоставимо с ординатором и по этому показателю явно лучше эксперта. При выборе типа исследования модель показала почти равный результат с двумя людьми-чтецами. Наилучшие результаты были в области визуализации легких, печени и поджелудочной железы, где алгоритмы руководств особенно хорошо стандартизированы; показатели были несколько ниже у всех участников для более сложной области головы и шеи.
Что это может значить для будущего ухода
Исследование показывает, что GPT-4o может служить надежным помощником при решениях о последующем визуальном обследовании, работая примерно на уровне опытного радиолога и во многих аспектах лучше, чем стажер. Используемая как инструмент поддержки принятия решений, а не замена человека, такая система может помочь сократить число ненужных сканирований, уменьшить задержки в критически важном наблюдении и снизить нагрузку на загруженные радиологические отделения, при этом приводя практику в соответствие с установленными рекомендациями. Авторы, однако, подчеркивают, что человек-эксперт должен оставаться главным: модель все еще может неверно интерпретировать отчеты, ее внутренние механизмы непрозрачны, и исследование включало только 100 онкологических случаев из двух центров. Прежде чем такие инструменты можно будет безопасно интегрировать в повседневные клинические рабочие процессы, потребуются более крупные проспективные испытания и защищенные локальные развертывания.
Цитирование: Kaya, K., Müller, L., Persigehl, T. et al. GPT-4o for Automated Determination of Follow-up Examinations Based on Radiology Reports from Clinical Routine. Sci Rep 16, 12587 (2026). https://doi.org/10.1038/s41598-026-40317-9
Ключевые слова: последующее наблюдение в радиологии, крупные языковые модели, поддержка медицинских решений, онкологическая визуализация, GPT-4o