Clear Sky Science · ru

Сравнительная оценка соответствия больших языковых моделей и опубликованных заключений клинических испытаний на четырёх платформах искусственного интеллекта

2026-04-02 · Назад к списку

Почему это важно для повседневной медицинской практики

Врачи опираются на крупномасштабные клинические испытания, чтобы решить, какие методы лечения безопасны и эффективны. В то же время новые инструменты искусственного интеллекта становятся всё лучше в чтении и кратком изложении медицинских исследований. В этом исследовании поставлен простой, но важный вопрос для пациентов и клиницистов: когда эти инструменты анализируют те же самые испытания, что и человеческие эксперты, приходят ли они к тем же итоговым выводам о том, что работает, а что нет?

Как исследователи тестировали ИИ-инструменты

Команда сосредоточилась на 20 известных клинических испытаниях, опубликованных в New England Journal of Medicine, охватывающих заболевания сердца, инсульт, диабет, рак и нейрохирургию. Эти испытания были выбраны потому, что они тщательно спроектированы и ясно описаны, что делает их хорошей проверочной площадкой. Вместо подачи полных статей в системы ИИ исследователи предоставляли только таблицы и рисунки с числовыми данными, такими как показатели событий и графики исходов. Это заставляло инструменты опираться на сами данные, а не просто копировать письменные сводки авторов.

Figure 1. Как разные инструменты ИИ читают одни и те же медицинские исследования и совпадают ли их выводы с выводами врачей.

Что просили сделать у ИИ-систем

Были протестированы четыре широко используемые большие языковые модели: ChatGPT, Gemini, Grok3 и Claude. Каждая модель получила одинаковый стандартизованный запрос, в котором просили интерпретировать данные по пяти направлениям. Модели должны были объяснить общие результаты, понять статистику, связать результаты с уходом за пациентом, указать ограничения исследования и предложить, как выводы могут применяться на практике. Двое обученных аналитиков затем сравнивали каждый ответ ИИ с оригинальной статьёй и оценивали работу по каждому из пяти пунктов по шкале от нуля до пяти.

Насколько ИИ совпал с человеческими выводами

ChatGPT показал наибольшее соответствие опубликованным выводам испытаний, заработав идеальную медианную оценку 25 из 25 по 20 испытаниям. За ним последовал Gemini с 21 из 25, тогда как Grok3 и Claude отстали с медианными показателями 18 и 17 соответственно. Все четыре инструмента лучше всего справились с описанием того, почему результаты важны для пациентов, и особенно ChatGPT занял лидирующие позиции во всех областях. Gemini также хорошо выявлял слабые стороны исследований и возможные факторы смешения, тогда как Grok3 и Claude были менее надёжны в распознавании ограничений и в практических рекомендациях по лечению. Двое человеческих оценщиков сильно совпадали в суждениях друг с другом, что указывает на стабильность самой методики оценки.

Figure 2. Пошаговый взгляд на то, как ИИ преобразует числа из испытаний в суждения о лечении и его ограничениях.

Осторожность в связи с скрытой подготовкой и безопасностью в реальном мире

Несмотря на впечатляющие цифры, авторы предупреждают, что результаты следует интерпретировать с осторожностью. Использованные испытания хорошо известны и, вероятно, присутствовали в данных для обучения этих ИИ-систем. Это означает, что инструменты могли уже «знать» эти исследования и воспроизводить увиденные ранее шаблоны, а не независимо рассуждать на основе предоставленных таблиц. Отсутствие ослепления относительно того, какая система сгенерировала ответ, также оставляет пространство для тонкой человеческой предвзятости при оценке. Кроме того, выбранные испытания в основном имели ясные, позитивные результаты, что представляет собой лучший сценарий, а не ту запутанную и неопределённую картину исследований, которая часто формирует решения в реальной практике.

Что это означает для будущего ухода

Для неспециалиста вывод таков: некоторые инструменты ИИ, особенно ChatGPT и Gemini, часто могут читать данные клинических испытаний и совпадать с экспертными выводами, по крайней мере для хорошо известных исследований высокого качества. Это указывает на их полезность в роли помощников при суммировании сложных исследований и организации доказательств, но они не готовы заменить врачей или исследователей. Их история обучения непрозрачна, производительность варьируется между платформами, и их ответы не доказали свою безопасность для принятия прямых лечебных решений. Авторы утверждают, что ИИ следует рассматривать как мощного помощника, который может отфильтровывать числа и выделять закономерности, тогда как человеческие клиницисты остаются ответственными за суждение, эмпатию и окончательный выбор в уходе за пациентом.

Цитирование: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Ключевые слова: большие языковые модели, клинические испытания, медицинский ИИ, синтез доказательств, поддержка клинических решений