Clear Sky Science · ru

Автоматизированная классификация ответа опухоли по RECIST с помощью крупных языковых моделей и подсказок

2026-05-27 · Назад к списку

Почему это важно для людей с раком

Когда человека лечат от рака, врачи опираются на результаты сканирования, чтобы решить, работает ли терапия, нужно ли её менять или можно её прекратить. Чтение и суммирование этих отчётов занимает много времени и может приводить к незначительным ошибкам. В этом исследовании изучают, может ли крупная языковая модель, тип искусственного интеллекта, понимающий текст, безопасно помочь врачам сортировать отчёты сканирования по стандартным категориям ответа, при этом сохраняя данные пациентов внутри больницы.

Как врачи обычно отслеживают изменения опухоли

В онкологии КТ-сканы регулярно используются для проверки того, как опухоли реагируют на лечение. Врачи часто применяют набор правил RECIST, который группирует состояние пациента в категории, такие как полный ответ, частичный ответ, стабильное заболевание, прогрессирование заболевания или исходное состояние до начала лечения. Хотя во многих больницах используются полуструктурированные шаблоны для таких отчётов, окончательное суждение о ответе часто записывается в свободном тексте. Это означает, что эксперт должен интерпретировать измерения, сравнить их с предыдущими сканами и перевести всё это в одну из стандартных категорий — процесс, который может быть утомительным и иногда непоследовательным.

Figure 1. Оффлайн-ИИ в больнице читает отчёты КТ и переводит их в простые категории ответа опухоли для врачей.

Что исследователи попросили компьютер сделать

Команда в немецкой университетской клинике проверила, сможет ли универсальная языковая модель LLaMA 3.3 с 70 миллиардами параметров читать реальные КТ-радиологические отчёты пациентов с раком и назначать правильную категорию RECIST без дополнительного обучения на локальных данных. Работа выполнялась полностью оффлайн в защищённой инфраструктуре больницы, так что никакая информация о пациентах не покидала учреждение. До того как модель увидела отчёты, исходные метки ответов были удалены, но все измерения и опорные значения остались, чтобы система могла сравнивать текущие размеры опухолей с предыдущими исходными или минимальными зафиксированными значениями.

Разные способы направления ИИ

Исследователи опробовали три способа указания модели — так называемые стратегии подсказок. В zero-shot-подходе модель просто получала отчёт и краткую инструкцию выдать одну из пяти категорий. В few-shot-подходе им показывали несколько примерных фрагментов отчётов вместе с правильной категорией, обучая демонстрацией. В chain-of-thought-подходе модель просили объяснять своё рассуждение шаг за шагом простым языком перед тем, как назвать окончательную категорию, и несколько независимых прогонов рассуждений объединяли для вынесения решения по большинству. На выборке из 142 отчётов они измеряли, как часто ИИ совпадает с экспертной оценкой человека, используя точность и стандартные классификационные метрики.

Насколько система совпадала с человеческими ридерами

Стратегия chain-of-thought показала наилучшие результаты, правильно классифицируя примерно четыре из пяти отчётов в целом и достигая наилучшего баланса между обнаружением истинно положительных случаев и избеганием ложных срабатываний. Она была особенно хороша в различении частичного ответа и стабильного заболевания — двух категорий, которые часто путают, — и улучшала результаты для редких исходов, таких как полный ответ. Zero-shot-подход уже демонстрировал удивительно высокие показатели, иногда превосходя использование нескольких примеров, что указывает на то, что формулировка инструкций может влиять сильнее, чем просто добавление примеров обучения. Few-shot-подход помогал в некоторых сложных категориях, но мог вносить новые ошибки, когда небольшой набор примеров не полностью отражал разнообразие реальных отчётов.

Figure 2. ИИ последовательно анализирует радиологический отчёт, рассуждает об изменениях опухоли и присваивает один из нескольких цветовых кодированных исходов ответа.

Что показывают ошибки и ограничения

Анализ матриц ошибок, показывающих, какие категории система склонна путать, показал, что метод chain-of-thought давал меньше систематических ошибок и давал картину, похожую на тщательное клиническое рассуждение. Тем не менее модель всё ещё испытывала трудности в пограничных ситуациях, когда текст явно не разграничивал исходный скан и последующий скан без видимых остатков опухоли. Исследование использовало отчёты из одного учреждения, следовавшего стандартизированным шаблонам, поэтому результаты могут отличаться в больницах с более свободным стилем письма. Работа фокусировалась на одном отчёте за раз и пока не включала длительную историю по многим визитам, которая требуется для некоторых формальных правил клинических испытаний.

Что это может означать для будущей помощи при раке

Для широкой аудитории главный вывод в том, что ИИ, читающий текст, может помочь радиологам, перепроверяя, совпадают ли выводы, записанные в отчётах КТ, с цифрами и правилами, которые направляют решения по лечению рака. Запуск системы полностью оффлайн защищает приватность пациентов и при этом даёт масштабируемый инструмент, который может снизить ручную нагрузку и выявлять несоответствия. Авторы подчёркивают, что такие модели должны поддерживать, а не заменять клиницистов, и должны быть валидированы в разных больницах и интегрированы с человеческим контролем. При аккуратной разработке подобные системы могут помочь обеспечить более надёжное соответствие того, что сказано в отчёте, фактам на изображениях и стандартам, которые руководят терапией.

Цитирование: Mergen, M., Busch, F., Sauter, A.P. et al. Automated RECIST tumor response classification through prompt-guided large language models. Sci Rep 16, 16433 (2026). https://doi.org/10.1038/s41598-026-54979-y

Ключевые слова: ИИ в радиологии, ответ опухоли, RECIST, крупные языковые модели, онкологическая отчётность