Clear Sky Science · ru

Валидация конформного прогнозирования при классификации атипии шейки матки

· Назад к списку

Почему нужно более разумное скрининговое обследование шейки матки

Рак шейки матки по‑прежнему уносит жизни сотен тысяч женщин ежегодно, особенно в странах, где не хватает врачей и лабораторных специалистов. Системы искусственного интеллекта (ИИ), анализирующие образцы клеток шейки матки под микроскопом, могли бы помочь закрыть этот пробел, но современные системы часто говорят с излишней уверенностью. Они обычно выдают единственную «наиболее вероятную» метку, даже когда изображение действительно трудно классифицировать. В этом исследовании ставится простой, но ключевой вопрос: когда ИИ сообщает о своей неуверенности, соответствует ли эта неуверенность оценкам человеческих экспертов?

От одиночных ответов к коротким спискам вариантов

Большинство медицинских ИИ‑инструментов для изображений Пап‑мазка подражают тому, как формируются стандартные лабораторные отчёты: они выбирают одну категорию, например «норма», «низкосортные изменения» или «высокосортные изменения», и приписывают вероятность. Но эти вероятностные оценки могут вводить в заблуждение своей кажущейся определённостью. Метод, рассмотренный в статье, называемый конформным прогнозированием, идёт иным путём. Вместо одного окончательного ответа он формирует небольшой набор правдоподобных меток для каждого фрагмента изображения со слайда. В очень уверенных случаях набор может содержать одну метку, тогда как в сложных случаях он может включать несколько вариантов. По сути, это должно дать клиницистам более честное представление о том, что модель знает и чего не знает.

Figure 1
Figure 1.

Построение полной картины разногласий экспертов

Чтобы проверить, насколько эта идея работает в реальных условиях, исследователи собрали подробный набор данных из более чем 300 слайдов Пап‑мазков, полученных в сельской больнице в Кении. Существующая система ИИ сначала выделяла области, вероятно содержащие аномальные клетки, и эти области вырезались в виде небольших фрагментов. Шесть опытных цитологов затем с помощью специальной веб‑платформы пометили тысячи таких фрагментов. Для основного тестового набора четыре эксперта независимо отметили одни и те же фрагменты. Это создало не просто единый «эталон» для каждого фрагмента, а полную картину согласия и разногласий между экспертами, фиксируя, какие изображения однозначны, а какие по природе амбивалентны.

Тестирование разных способов выражения неопределённости

Команда обучила три популярных модели глубокого обучения распознавать четыре категории: норма, низкосортные изменения, высокосортные изменения и артефакты. Поверх каждой модели они применили три варианта конформного прогнозирования, которые различаются по тому, насколько широкими обычно бывают их наборы меток. Затем оценивали работу двумя дополняющими подходами. Во‑первых, использовали стандартные меры покрытия, которые просто спрашивают: включает ли набор предсказанных меток консенсусную экспертную метку по крайней мере в выбранном проценте случаев? Во‑вторых, ввели меры согласия, которые сравнивают каждый предсказанный набор с полным списком меток, поставленных всеми экспертами для данного фрагмента, и поощряют случаи, когда короткий список ИИ совпадает с диапазоном мнений экспертов.

Когда стандартные метрики рисуют слишком радужную картину

По обычным меркам покрытия методы конформного прогнозирования выглядели впечатляюще: они почти всегда включали консенсусную экспертную метку, особенно когда им разрешали выдавать немного более крупные наборы. Но более строгие тесты согласия показали иную картину. Точные совпадения между наборами меток ИИ и объединёнными метками экспертов встречались лишь примерно в одной трети случаев, независимо от метода. Некоторые подходы отдавали предпочтение небольшим, точным наборам, которые пропускали метки, считающиеся экспертами правдоподобными, в то время как другие формировали большие наборы, включавшие вместе с правильной ещё и маловероятные метки. Методы хорошо отслеживали заложенную неоднозначность: когда эксперты сильнее расходились во мнениях, конформные наборы, как правило, увеличивались в размере. Однако они были гораздо менее надёжны в выявлении изображений, действительно вышедших за пределы обучающего распределения, например сильно зашумлённых Пап‑мазков или препаратов костного мозга из другого типа ткани, и это поведение сильно зависело от использованной базовой модели.

Figure 2
Figure 2.

Что это значит для использования в реальной клинике

Для клиницистов, рассматривающих инструменты поддержки на базе ИИ, главный вывод заключается в том, что оценки неопределённости не становятся автоматически надёжными только потому, что сопровождаются математическими гарантиями. Конформное прогнозирование может обеспечить, что истинная метка очень часто окажется где‑то в предсказанном наборе, но это исследование показывает, что дополнительные метки в таком наборе могут не соответствовать ожиданиям людей и даже отвлекать от наиболее релевантных вариантов. Авторы утверждают, что в областях с высокими ставками, таких как скрининг рака, выводы ИИ должны оцениваться не только с точки зрения технической «правильности», но и по тому, насколько сосредоточенно и клинически уместно они представляют информацию. В дальнейшей работе потребуется дорабатывать как модели, так и инструменты для оценки неопределённости, чтобы их короткие списки диагнозов казались экспертам столь же разумными, сколь и удовлетворяли математическим критериям.

Цитирование: Hagos, M.T., Suutala, A., Bychkov, D. et al. Validation of conformal prediction in cervical atypia classification. Sci Rep 16, 9649 (2026). https://doi.org/10.1038/s41598-026-44850-5

Ключевые слова: скрининг рака шейки матки, неопределённость медицинского ИИ, конформное прогнозирование, цифровая цитология, обнаружение выходов за распределение