Clear Sky Science · ru
Крупномасштабный бенчмарк для оценки больших языковых моделей по ответам на медицинские вопросы на румынском языке
Почему это важно для здравоохранения и технологий
Многие люди сейчас обращаются к онлайн‑инструментам и чат‑ботам за медицинской информацией, но большинство таких систем лучше работает на английском и испытывает трудности с локальными медицинскими записями. В этой работе восполняется этот пробел для Румынии, где врачи составляют длинные, сложные клинические сводки на румынском и нуждаются в надёжных цифровых помощниках, которые быстро отвечают на вопросы о пациентах с раком. Авторы представляют MedQARo — новый ресурс, позволяющий исследователям всерьёз тестировать и улучшать большие языковые модели, чтобы те лучше понимали реальные клинические заметки на румынском.
Новая база вопросов, построенная на реальных пациентах
Ядром исследования является MedQARo — очень большая коллекция из 105 880 пар «вопрос–ответ», связанных с 1 242 пациентами с онкологическими заболеваниями. Вместо перевода английских данных команда начала с нуля, используя оригинальные румынские клинические сводки, в основном по раку молочной железы и лёгкого, а также по нескольким другим типам опухолей. Семь онкологов‑специалистов и ординаторов потратили почти 3 000 часов на чтение этих документов и составление ответов на тщательно продуманные медицинские вопросы. Некоторые вопросы требуют ответа «да/нет», другие — извлечения конкретных деталей, а часть предполагает объединение улик для вывода стадии или хронологии лечения. Все данные пациентов были полностью анонимизированы и одобрены этическими комитетами.

Тестирование ИИ на «домашнем» медицинском языке
Воспользовавшись MedQARo, авторы оценили несколько семейств больших языковых моделей, включая две, настроенные для румынского в целом, одну, рассчитанную на работу с очень длинными текстами, и одну, обученную на английском медицинском материале. Они также сравнили их с двумя мощными коммерческими моделями, доступными через платные API. Каждая модель должна была прочитать вопрос и отрывок из клинической сводки, затем сгенерировать ответ. Исследователи оценивали не только точные совпадения, но и то, насколько часто модели улавливают ключевые слова и как хорошо справляются с гибкой румынской формулировкой, используя четыре разных метрики оценки.
Тонко настроенные модели превосходят «работающие из коробки» гиганты
В целом модели, использованные «из коробки», показали слабые результаты на MedQARo, даже если они были сильны на английском или имели некоторый опыт с румынским. Простые базовые подходы, которые всегда угадывали самый частый ответ, порой показывали результаты почти на уровне этих zero‑shot систем. Однако после тонкой настройки моделей на новом наборе данных производительность резко улучшалась. Лучшая система — адаптированная для румынского модель RoMistral‑7B — достигла F1 примерно 0,67 на знакомых типах рака и в тех же больницах, явно опередив все остальные открытые и коммерческие модели. Тем не менее даже этот лидер ответил неверно более чем на треть вопросов, что подчёркивает сложность бенчмарка.

Стресс‑тестирование обобщения между клиниками и типами рака
Чтобы проверить, справляются ли эти системы с новыми ситуациями, команда построила более сложный тестовый набор из другого медицинского центра и по типам рака, не представленным в обучении. В этом кросс‑доменном сценарии производительность всех моделей падала, часто значительно, и лучшая тонко настроенная модель правильно отвечала существенно менее чем в половине случаев. Модели, обученные на английских биомедицинских текстах, не переносили автоматически успех на румынские заметки, а простое увеличение объёма передаваемого клинического документа мало помогало. Наоборот, фокусировка на первой части сводки часто работала лучше, чем подача всей длинной записи, что указывает на то, что лишний контекст может скорее запутать, чем прояснить.
Что это значит для будущего клинического ИИ
Для непрофессионального читателя главный вывод таков: создание безопасного и полезного медицинского ИИ на таких языках, как румынский, требует больше, чем просто подключение локальных данных к большому англоцентричному чат‑боту. Тщательно разработанные, специфичные для языка бенчмарки, такие как MedQARo, выявляют как потенциал, так и ограничения современных систем. Они показывают, что небольшие открытые модели при тонкой настройке на качественных локальных данных могут превосходить гораздо большие общие модели, работающие в облаке. Вместе с тем умеренные результаты, особенно на новых больницах и типах рака, предупреждают, что современные инструменты ещё не готовы заменить человеческое суждение. Вместо этого MedQARo предлагает прочную основу для следующего поколения клинических ассистентов, которые смогут помогать румынским врачам ориентироваться в сложных онкологических записях, при этом сохраняя в центре внимание безопасность и приватность пациентов.
Цитирование: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0
Ключевые слова: ответы на медицинские вопросы, искусственный интеллект на румынском языке, клинические записи о раке, большие языковые модели, бенчмарк MedQARo