Clear Sky Science · ru

Оценка языковых моделей ИИ в ответах на вопросы, связанные с беременностью, оценённая специалистами по акушерству

· Назад к списку

Почему это важно для будущих родителей

Беременность — время множества вопросов, и многие люди теперь обращаются к онлайн-инструментам и чат-ботам за быстрыми ответами. В этом исследовании поставили простой, но важный вопрос: насколько хорошо современные популярные чат-боты на базе искусственного интеллекта дают ясную, точную и успокаивающую информацию по распространённым бытовым вопросам во время беременности, которой доверили бы врачи?

Сравнение трёх цифровых «движков ответов»

Исследователи из Турции поставили цель сравнить три известные языковые модели ИИ — раннюю версию ChatGPT (3.5), более новую (4.0) и Google Gemini. Они сосредоточились на десяти типичных вопросах, которые часто задают беременные: какие продукты следует избегать, безопасны ли упражнения и секс, что может означать раннее кровотечение, как оценивать движения плода, и какие признаки требуют срочной помощи. Каждый вопрос вводился во все три системы с одинаковыми простыми инструкциями, а параметры были настроены так, чтобы уменьшить случайность, чтобы ответы были последовательными, а не разговорными или креативными.

Каждая модель давала по одному ответу на вопрос на турецком языке без последующих уточняющих запросов или редактирования. Затем ответы удаляли всё, что могло бы выдать, какая система их сгенерировала, и перемешивали в случайном порядке. Так эксперты — специалисты по акушерству и гинекологии — оценивали только содержимое, а не бренд или узнаваемый стиль письма.

Figure 1
Figure 1.

Как врачи оценивали ответы

Семьдесят пять акушерских специалистов — от начинающих врачей до опытных клиницистов — оценили все 30 анонимизированных ответов. Для каждого ответа они использовали пятибалльную шкалу для оценки четырёх качеств: точность (соответствует ли он текущим медицинским знаниям и рекомендациям?), надёжность (внутренняя согласованность и отсутствие небезопасных советов), ориентированность на пациента (подходит ли тон и является ли он успокаивающим для непрофессионалов?) и понятность (ясен ли язык, хорошо ли структурирован и легко ли воспринимается?). В общей сложности эксперты поставили 9000 отдельных оценок — большой набор данных, позволивший исследователям выявить значимые различия между тремя инструментами ИИ.

Команда затем использовала статистические методы, разработанные для шкал оценивания, чтобы сравнить модели. Они также проверили согласованность оценок разных врачей и исследовали, оценивают ли более опытные клиницисты ответы иначе, чем их молодые коллеги. Цель не заключалась в создании рабочего чат-бота, а в том, чтобы получить тщательную «снимок» поведения этих систем в контролируемых условиях при ответах на реалистичные вопросы о беременности.

Какой чат-бот оказался лучшим?

В целом лучшей показала себя более новая версия ChatGPT-4.0. Врачи оценили её ответы как наиболее точные и ориентированные на пациента, а также она показала наилучшие результаты по надёжности. Gemini в целом занял промежуточное место: его ответы часто были ясными и лёгкими для чтения, и по понятности он был сопоставим с ChatGPT-4.0, но, как правило, был чуть менее подробным и точным. ChatGPT-3.5, более старая модель, последовательно получала самые низкие оценки, часто давая более короткие или менее полные объяснения. Интересно, что в плане базовой ясности и структуры все три модели выглядели более похожими, что указывает на то, что сделать текст удобочитаемым может быть проще, чем обеспечить корректность и сбалансированность каждой медицинской детали.

Figure 2
Figure 2.

Оценки врачей были высоко согласованными между собой, что указывает на то, что результаты не были обусловлены несколькими отдалёнными мнениями. Наблюдалась умеренная тенденция к тому, что более опытные клиницисты в целом ставили немного более высокие оценки надёжности, но их взгляды мало отличались в оценках дружелюбия или лёгкости понимания ответов.

Что это означает для реального использования

Для непрофессионала вывод таков: современные ИИ-инструменты — особенно ChatGPT-4.0 — уже способны предоставлять информацию о беременности, которую многие акушеры считают сравнительно точной, безопасной и лёгкой для понимания. При этом исследование подчёркивает важное ограничение: даже лучшая система не заменяет врача. Исследователи не сравнивали ответы чат-ботов с «золотыми стандартами» официальных руководств и не проверяли, как пациенты фактически интерпретируют или действуют в соответствии с этими советами. Поскольку работа проводилась полностью на турецком языке, результаты в других языковых и культурных контекстах могут отличаться.

Проще говоря, эти чат-боты на базе ИИ могут быть полезными помощниками для получения знаний о беременности, особенно когда визит в клинику затруднён или время общения с врачом ограничено. Они могут поддерживать, но не должны заменять разговоры с медицинскими специалистами. Авторы подчёркивают, что экспертный надзор остаётся необходимым для обнаружения ошибок, предотвращения ложного успокоения и обеспечения того, чтобы при тонких или высокорисковых ситуациях пациенты получали личную, очную медицинскую помощь.

Цитирование: Keyif, B., Yurtçu, E., Başbuğ, A. et al. Evaluation of AI language models in answering pregnancy-related questions assessed by obstetrics specialists. Sci Rep 16, 9322 (2026). https://doi.org/10.1038/s41598-026-40609-0

Ключевые слова: образование по вопросам беременности, чат-боты на основе ИИ, онлайн-медицинские советы, акушерство, качество информации для пациентов