Clear Sky Science · ru

Создание энциклопедии дерматопатологии DermpathNet с рабочим процессом на основе искусственного интеллекта

· Назад к списку

Почему важна новая библиотека изображений кожи

Рак кожи и другие новообразования часто диагностируют, изучая тонкие срезы ткани под микроскопом — область, известная как дерматопатология. Однако изображения, на которых обучают врачей и тестируют инструменты на основе искусственного интеллекта (ИИ), обычно закрыты за платными доступами или ограничены правилами конфиденциальности. В этой работе представлена DermpathNet — свободно доступная, тщательно отобранная коллекция тысяч изображений кожных биопсий, созданная с участием ИИ. Она призвана упростить обучение, верификацию диагнозов и разработку новых компьютерных инструментов, сделав эти процессы более доступными и надежными для клиницистов и исследователей по всему миру.

Figure 1
Figure 1.

Проблема скрытых учебных препаратов

Большинство медицинских стажировок проходят с использованием стеклянных препаратов или цифровых файлов, контролируемых одной больницей. Эти материалы могут содержать идентификаторы пациентов или иметь лицензионные ограничения, препятствующие их распространению. Существующие онлайн-ресурсы либо требуют подписки, либо предоставляют лишь несколько примеров, либо не проходят регулярной экспертной проверки. В результате студенты и врачи лишены широкой, доверенной и открытой коллекции микроскопических изображений кожи, демонстрирующей как частые, так и редкие опухоли. Без такого ресурса сложно сравнивать случаи, стандартизировать обучение и объективно оценивать реальную эффективность систем компьютерного зрения.

Поиск качественных изображений в море статей

Авторы обратились к коллекции открытого доступа PubMed Central — огромной библиотеке полнотекстовых биомедицинских статей, содержимое которой можно законно повторно использовать. Они начали со структурированного списка, или лексикона, из 12 групп доброкачественных и злокачественных опухолей кожи и почти 200 конкретных диагнозов, составленного с участием экспертов и с опорой на стандартизованные медицинские словари. С этим лексиконом они искали в PubMed Central статьи, в заголовках или аннотациях которых упоминались эти заболевания, загрузили полные тексты и извлекли все рисунки и подписи к ним. Первый этап дал более 200 000 иллюстраций из более чем 43 000 статей — слишком много, и большинство из них не являлись микроскопическими изображениями кожи.

Как ИИ и ключевые слова работали вместе

Чтобы отсеять полезные изображения от нерелевантных, команда создала гибридную систему фильтрации. Одна часть — модель глубокого обучения, обученная на отдельной коллекции медицинских изображений, оценивала, похоже ли изображение на патологический препарат. Другая часть сканировала подписи к рисункам в поисках характерных фраз, таких как уровни увеличения или названия красителей, обычно сопровождающих микроскопические снимки. Для часто встречающихся диагнозов сохранялись только изображения, прошедшие оба теста, что повышало чистоту выборки; для редких диагнозов принимались изображения, прошедшие хоть один из тестов, чтобы не упустить редкие примеры. При проверке этого гибридного метода на «золотом стандарте» из 651 вручную размеченного изображения его эффективность оказалась высокой: F‑мера превысила 90%, что лучше, чем при использовании только ИИ или только ключевых слов.

Figure 2
Figure 2.

Что содержит DermpathNet и как его используют

После обработки рабочий процесс дал 7 772 изображения, охватывающих 166 различных диагнозов опухолей кожи. Каждое изображение было просмотрено сертифицированными дерматопатологами, и к каждому прикреплены подробные метаданные с информацией об исходной статье, типе заболевания и стандартизованных медицинских кодах. Набор данных организован так, чтобы пользователи могли исследовать его по категориям заболеваний, конкретным диагнозам или по исходной публикации, отслеживая при этом лицензионную информацию. Помимо образовательных целей, авторы использовали DermpathNet для оценки возможностей современной модели зрения и языка: GPT‑4v. При запросах определить конкретные опухоли кожи в этих сложных изображениях в форматах правда/ложь, открытого ответа и множественного выбора модель показала слабые результаты, часто не распознавая правильный диагноз даже при наличии короткого списка вариантов.

Что это значит для врачей и машин

Для неспециалистов DermpathNet можно рассматривать как высококачественный открытый атлас микроскопических опухолей кожи, созданный с помощью интеллектуальной системы сортировки, которая позволяет экспертам сосредоточиться на окончательной проверке вместо ручного поиска. Он снижает барьеры для обучения и сравнений между учреждениями и выявляет сложность визуальной задачи: даже передовая система ИИ испытывала трудности с этими изображениями. Авторы приходят к выводу, что хотя ИИ может помочь в сборке таких ресурсов, современные универсальные модели пока не готовы заменить суждение специалистов в дерматопатологии. Вместо этого DermpathNet предлагает прочную основу для обучения и создания следующего поколения специализированных медицинских ИИ-инструментов, которые смогут действительно помогать в диагностике заболеваний кожи.

Цитирование: Xu, Z., Lin, M., Zhou, Y. et al. Establishing dermatopathology encyclopedia DermpathNet with Artificial Intelligence-Based Workflow. Sci Data 13, 368 (2026). https://doi.org/10.1038/s41597-026-06715-4

Ключевые слова: дерматопатология, набор данных медицинских изображений, искусственный интеллект, рак кожи, цифровая патология