Clear Sky Science · ru

Классификация сообщений о дефектах медицинских товаров с помощью глубокого обучения

· Назад к списку

Почему важно быстрее обнаруживать некачественные лекарства

Большинство из нас предполагает, что лекарства и медицинские товары, которыми мы пользуемся, безопасны и изготовлены в соответствии со строгими стандартами качества. Тем не менее по всему миру ежегодно отзывается сотни лекарственных препаратов из‑за загрязнений, неверных ингредиентов или вводящих в заблуждение этикеток. Каждый дефектный продукт представляет потенциальную угрозу для пациентов. Регуляторы должны быстро читать и интерпретировать тысячи сообщений о дефектах, чтобы решить, какие из них требуют срочных действий. В этой статье описывается, как была создана система глубокого обучения, помогающая органам здравоохранения классифицировать такие сообщения быстрее и более последовательно, чтобы они могли сосредоточить внимание на проблемах с наибольшим риском для общественного здоровья.

Как сегодня сообщают о проблемах с продуктом

Когда в лекарстве или другом медицинском товаре обнаруживается возможный дефект, регуляторам отправляют короткий письменный отчет. В этих сообщениях могут описываться самые разные проблемы: стеклянные осколки в ампуле, неверный ингредиент в таблетке, протекающая упаковка или маркировка, которая может привести к ошибкам дозирования. В Сингапуре Управление здравоохранения использует стандартный медицинский словарь, адаптированный под местные потребности, чтобы отнести каждый отчет к одной из нескольких конкретных категорий, например к микробному загрязнению или к недопустимой рекламе. Присвоенная категория помогает определить серьёзность проблемы и скорость реагирования. В настоящее время обученные сотрудники читают каждый отчет и присваивают метку вручную. Эта работа медленная, сложная и может быть непоследовательной, особенно по мере роста числа сообщений.

Figure 1
Figure 1.

Обучение компьютера читать отчеты о дефектах

Исследователи поставили цель создать систему искусственного интеллекта, которая могла бы поддерживать этих сотрудников, а не заменять их. Они собрали 13 830 отчетов о дефектах, полученных в период с 2010 по 2021 год, охватывающих лекарства, вакцины, добавки и косметику. Команда опытных фармацевтов тщательно проверила и промаркировала каждый отчет, используя 21 наиболее распространённую категорию дефектов, которые в сумме охватывали более 99% всех случаев. Затем команда использовала популярную языковую модель под названием BERT, предназначенную для понимания значения слов в контексте, в качестве ядра своей системы. Тонкая настройка BERT на этой размеченной коллекции позволила создать инструмент — MedDefects‑BERT — который мог прочитать название и описание отчета и предсказать наиболее вероятную категорию дефекта.

Насколько хорошо работает система

При тестировании на отчетах, которых модель не видела ранее, MedDefects‑BERT совпадал с выбором экспертов в качестве первого варианта в 86% случаев. Если системе позволяли предлагать три наиболее вероятные категории, правильная оказывалась среди них в 96% случаев. Это важно, потому что реальный сотрудник может просто просмотреть короткий список предложений, а не начинать анализ с нуля. Система работала лучше для категорий с большим количеством обучающих примеров, что типично для машинного обучения. Тем не менее разрешение до трёх предложенных меток повысило показатели выше 70% для каждой категории, включая более редкие. Оценки уверенности модели — числа от 0 до 1, указывающие на степень уверенности — были тесно связаны с частотой правильных предсказаний. Установив порог уверенности, команда показала, что может повысить точность до примерно 91% для «уверенных» предсказаний, одновременно пометив умеренную долю случаев как «неопределённые» для более тщательной проверки человеком.

Figure 2
Figure 2.

Взгляд внутрь решений модели

Авторы также решили одну из ключевых проблем применения ИИ в сферах критичных для безопасности: прозрачность. Они использовали инструменты визуализации, чтобы показать, что отчёты одной и той же категории дефекта группируются вместе на внутренней «карте» значений документов модели, тогда как неправильно классифицированные отчёты располагаются на границах между кластерами. На уровне отдельных слов они применили метод SHAP, чтобы выделить термины в отчёте, которые склоняли модель к той или иной категории. Например, слова, связанные с грибами или плесенью, сильно влияли на предсказания микробного загрязнения, в то время как такие термины, как «осадок» или «выпадение», поддерживали категорию, связанную с отложениями в продуктах. Эти объяснения дают сотрудникам быстрый способ увидеть, почему модель сделала предложение, и оценить, имеет ли оно смысл в контексте.

Как сделать систему умнее и эффективнее

Для дальнейшего улучшения работы без значительного увеличения вычислительных затрат команда использовала технику, известную как глубокая настройка подсказок (deep prompt tuning). Вместо изменения всех внутренних параметров модели они добавили небольшие обучаемые «префиксы» к каждому слою, которые мягко направляют модель на выполнение этой конкретной задачи. Сочетание обычной тонкой настройки и этих подсказок повысило точность системы более чем в половине категорий дефектов и улучшило её способность правильно обнаруживать случаи в целом. Испытывания на более новых отчётах за 2022 год показали, что точность системы сохраняется со временем, что говорит о том, что её понимание отчетов о дефектах не устаревает слишком быстро.

Что это значит для пациентов и регуляторов

Исследование демонстрирует, что грамотно спроектированная языковая модель может существенно помочь регуляторам просеивать большие объёмы сообщений о дефектах медицинских товаров, стандартизировать классификацию случаев и быстрее выявлять проблемы с высоким риском. Поскольку система также объясняет, какие слова и фрагменты текста повлияли на её предложения, окончательные решения остаются полностью за человеческими экспертами. С дальнейшей доработкой — например, для обработки нескольких типов дефектов в одном отчёте и расширения на более редкие категории — подобные инструменты могли бы укрепить надзор за качеством лекарств во всём мире, сократить задержки с отзывом опасных продуктов и в конечном итоге обеспечить лучшую защиту пациентов.

Цитирование: Sancenon, V., Huang, Y., Zou, L. et al. Classification of health product defect reports by deep learning. Sci Rep 16, 13528 (2026). https://doi.org/10.1038/s41598-026-43961-3

Ключевые слова: безопасность лекарств, качество медикаментов, глубокое обучение, регуляторный надзор, обработка естественного языка