Clear Sky Science · ru
К точной и интерпретируемой оценке компетенций: улучшение оценки клинической компетенции с помощью мультимодального ИИ и обнаружения аномалий
Почему важна более умная подготовка врачей
Когда врачи тренируются действовать в медицинских чрезвычайных ситуациях, их работу часто оценивают человеческие экзаменаторы, наблюдающие за ними в смоделированных сценариях. Эти оценки критичны для безопасности пациентов, но они могут быть субъективными, непоследовательными между экспертами и слишком грубыми, чтобы точно показать обучающимся, что нужно улучшить. В этом исследовании представлен новый искусственный интеллект (ИИ), который наблюдает и слушает во время высокореалистичных анестезиологических симуляций и превращает увиденное и услышанное в объективную, интерпретируемую меру клинической компетентности. Цель не в том, чтобы заменить опытных преподавателей, а в том, чтобы дать им более точный, справедливый и детализированный инструмент для понимания того, как интерны действительно ведут себя под давлением.

Наблюдение за чрезвычайными ситуациями под разными углами
Исследователи сосредоточились на симуляциях интенсивной терапии, используемых для подготовки анестезиологов‑ординаторов в Израиле к их национальному экзамену. Девяносто ординаторов из 17 больниц управляли жизнеугрожающими кризисами в реалистичной операционной с манекеном полного роста, медсестрой и интерном. Каждый сценарий разворачивался в четыре этапа: начальный стабильный период, фаза быстрого ухудшения, активная реанимация по стандартным протоколам жизнеобеспечения и, наконец, стабилизация и передача пациентов. На протяжении всего времени камеры записывали помещение и монитор пациента, микрофоны захватывали речь, а индикаторы жизненных показателей оцифровывались. Сертифицированные анестезиологи затем ставили каждому ординатору общую оценку от 1 (плохо) до 5 (образцово).
Преобразование поведения в потоки данных
Чтобы сделать эту насыщенную сцену пригодной для анализа ИИ, команда превратила видео и аудио в синхронизированные временные ряды. Один поток отслеживал, когда взгляд ординатора падал на монитор пациента, используя обнаружение лица и оценку цели взгляда. Второй оценивает, где ординатор стоял и как перемещался в комнате, на основе трёхмерной позы тела. Третий отмечал моменты, когда ординатор говорил, после очистки аудио для выделения его голоса от фонового шума. Наконец, исследователи считывали меняющиеся показатели частоты сердечных сокращений, артериального давления, частоты дыхания и насыщения кислородом прямо с экрана монитора с помощью оптического распознавания символов, получая непрерывные кривые физиологического состояния. Все эти каналы выравнивались кадр за кадром, давая подробный, моментальный портрет того, как ординаторы выглядели, двигались, говорили и реагировали на состояние пациента.

Обучение тому, как выглядит «экспертное» поведение
Вместо того чтобы обучать ИИ напрямую копировать человеческие оценки, авторы использовали модель обнаружения аномалий под названием MEMTO, изначально разработанную для выявления необычных паттернов в сложных временных рядах. Сначала они обучили MEMTO только на лучших выступлениях — ординаторах с рейтингом 5 — чтобы модель выучила, как во времени выглядят «идеальные» поведенческие шаблоны во всех сигналах. Когда базовая модель была настроена, она обработала симуляции каждого ординатора и в каждый момент выдавала оценку аномалии, отражающую, насколько поведение в данный момент отклонялось от экспертного шаблона. Эти оценки аномалий затем агрегировали и плавно переводили на привычную шкалу от 1 до 5: меньшие отклонения от экспертного шаблона соответствовали более высоким оценкам компетентности.
Чему ИИ научился о хорошем исполнении
Мультимодальный подход — сочетание взгляда, движений, речи и показателей жизненных функций — оказался ключевым. При обучении на ординаторах высшего ранга оценки модели сильно коррелировали с экспертными рейтингами, демонстрировали высокую согласованность и сортировали ординаторов почти в том же порядке, что и люди‑экзаменаторы. Напротив, использование только одного потока, например только взгляда, давало гораздо более слабое совпадение. Обучение модели на худших выступлениях также приводило к худшей согласованности, что подчёркивает, что эталоны должны базироваться на экспертном поведении, а не на типичных ошибках. Чтобы сделать решения системы понятными, команда использовала метод объяснения, известный как SHAP, который выделяет входные данные, наиболее влияющие на оценки аномалий. Общение и зрительный контакт с монитором оказались особенно важными, особенно во время эскалации кризиса и активной реанимации, тогда как показатели жизненных функций становились более влиятельными на этапе стабилизации.
Что это означает для будущей подготовки в медицине
Эта работа показывает, что ИИ может вывести клиническую подготовку за рамки простых чек‑листов или оценки «сдал/не сдал», фиксируя, как стажёры ведут себя посекундно в реалистичных чрезвычайных ситуациях. Сравнивая каждого ординатора с созданным на данных портретом экспертного поведения, система может отмечать моменты, когда связь между членами команды даёт сбои, внимание к монитору ослабевает или реакции на изменение жизненных показателей расходятся с образцом — информацию, которая может направлять более содержательную, фазо‑специфичную обратную связь на разборах. Авторы подчёркивают, что такие инструменты должны дополнять, а не заменять человеческое суждение, и должны внедряться осторожно, с надёжной защитой конфиденциальности и проверками на справедливость. Тем не менее их результаты показывают путь к более объективным, прозрачным и педагогически полезным оценкам, которые можно масштабировать в разных учебных программах и, в конечном счёте, помогут сделать уход за пациентами в реальном мире безопаснее.
Цитирование: Gershov, S., Mahameed, F., Raz, A. et al. Towards accurate and interpretable competency-based assessment: enhancing clinical competency assessment through multimodal AI and anomaly detection. npj Digit. Med. 9, 219 (2026). https://doi.org/10.1038/s41746-025-02299-2
Ключевые слова: оценка клинической компетентности, медицинский симулятор, мультимодальный ИИ, обнаружение аномалий, медицинское образование