Clear Sky Science · ru

MediQAl: французский набор вопросов по медицине для оценки знаний и рассуждений

2026-02-05 · Назад к списку

Почему важно тестировать медицинский ИИ на французском

Сегодня большинство людей обращаются к онлайн‑инструментам, иногда на базе искусственного интеллекта, за медицинской информацией. Тем не менее подавляющее число таких систем обучено и тестируется на английском, хотя миллионы пациентов и врачей работают на других языках. В этой статье представлен MediQAl — большой сборник французских вопросов из медицинских экзаменов, созданный, чтобы показать, насколько современные ИИ‑системы действительно понимают и рассуждают о медицине на французском и в каких случаях они всё ещё дают сбои.

Новый массив реальных экзаменационных вопросов

Ядро MediQAl — это кладезь из 32 603 вопросов, взятых из национальных экзаменов Франции для выдачи врачебной лицензии. Эти важные тесты, составленные академическими и клиническими специалистами, призваны отражать реальную клиническую практику: они смешивают факты из учебников с запутанными, практическими сценариями, где симптомы развиваются во времени и важные подсказки могут быть лишь подразумеваемыми. Французский формат экзаменов добавляет машинам дополнительную сложность: вопросы длинные, предложения синтаксически сложные, а ловушки часто зависят от негативных формулировок или исключений вроде «всё нижеуказанное верно, за исключением…». Сохраняя эту аутентичную структуру, MediQAl предлагает требовательную, реалистичную площадку для тестирования медицинского ИИ за пределами упрощённых учебных примеров.

Три способа проверить «врача‑ИИ»

MediQAl организован в три типа заданий, отражающие то, как тестируют врачей. Первая и самая большая группа — вопросы с множественным выбором и одним правильным ответом (один из пяти). Вторая группа допускает несколько правильных вариантов, что заставляет системы взвешивать комбинации находок так, как врач может рассматривать несколько возможных осложнений одновременно. Третья группа состоит из коротких открытых вопросов, где система должна сгенерировать краткий собственный ответ, а не выбирать из списка. Каждый вопрос помечен как проверка прямого понимания (воспоминание или применение известных фактов) или как проверка реального рассуждения (многоступенчатое мышление, объединение подсказок или работа с неопределённостью). Такая структура позволяет исследователям изучать не только то, что ИИ «знает», но и как он обдумывает клинический случай.

Как создавали и проверяли набор

Для сборки MediQAl авторы собрали материалы с обучающих сайтов и официальных ресурсов, где студенты и преподаватели делятся прошедшими экзаменационными вопросами. Вопросы с множественным выбором извлекались автоматически, тогда как менее структурированные открытые вопросы потребовали сочетания сопоставления шаблонов и ручной кураторской работы с веб‑страниц и PDF. Команда исключила вопросы с пропущенными ответами, изображениями или таблицами, с очень длинными свободными ответами и почти‑дубликаты, выявленные с помощью мер сходства как по вопросам, так и по решениям. Чтобы сосредоточить самые сложные задания в тестовом наборе, трое небольших ИИ‑моделей были привлечены для ответа на вопросы: любой пункт, который хотя бы одна модель решила, считался слишком лёгким для тестирования и перераспределялся в тренировочный или валидационный набор. Затем медицинский эксперт проверил стратифицированную выборку из 150 вопросов, подтвердив, что подавляющее большинство вопросов медицински корректны и адекватно сформулированы, а небольшая часть помечена как устаревшая или неоднозначная.

Испытание ведущих ИИ‑моделей

Имея MediQAl, исследование оценило 14 моделей большого языка, от широко известных коммерческих систем до открытых моделей, настроенных для медицины или пошагового рассуждения. Все они были протестированы в «zero‑shot» режиме, то есть им просто предлагалось ответить без специфической подготовки к задаче. Результаты показывают очевидные закономерности. Во‑первых, во всех моделях и типах задач показатели выше по простым вопросам на воспроизведение, чем по задачам, требующим рассуждений. В среднем точность на вопросах с рассуждением падает на несколько пунктов по сравнению с вопросами на понимание, причём разрыв особенно велик для открытых ответов. Во‑вторых, модели, специально обученные рассуждению, как правило, превосходят «обычные» аналоги, особенно на самых сложных вопросах, но всё ещё далеко не достигают надёжности, ожидаемой от практикующих клиницистов. В‑третьих, успех сильно варьирует по специальностям: такие области, как генетика, дерматология или бактериология, обрабатываются относительно хорошо, тогда как психиатрия, эпидемиология, профессиональная медицина и сложные открытые случаи остаются трудными.

Что это значит для пациентов и практиков

MediQAl закрывает важный пробел, предлагая большой, тщательно отобранный эталон, который тестирует медицинский ИИ на французском и охватывает 41 специальность, используя вопросы, предназначенные для будущих врачей, а не для машин. Выводы показывают, что хотя лучшие системы часто правильно воспроизводят факты и иногда соответствуют экзаменационным ответам, они по‑прежнему испытывают трудности при необходимости рассуждать через нюансированные клинические истории, особенно вне англоязычного контекста и в отдельных областях. Для пациентов и медицинских работников посыл ясен: современные ИИ‑инструменты могут быть полезными помощниками, но не готовы заменить человеческое суждение, и их ограничения сильно зависят от языка и специальности. Для исследователей и регуляторов MediQAl предоставляет публичную, повторно используемую тестовую площадку для отслеживания прогресса в создании безопасного и справедливого медицинского ИИ, работающего на французском так же хорошо, как и на английском.

Цитирование: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y

Ключевые слова: ответы на медицинские вопросы, искусственный интеллект на французском языке, клиническое мышление, модели большого языка, медицинские экзамены