Clear Sky Science · ru
Легковесная многоуровневая система обнаружения на рентгеновских снимках с использованием контролируемого контрастного обучения
Почему умные рентген-проверки важны
Каждый, кто когда-либо продвигался через контроль в аэропорту, знает: каждую сумку нужно просканировать быстро и точно. Однако рентгеновские изображения далеки от простых — ножи, бутылки, ноутбуки и зарядные устройства накладываются друг на друга, и опасные предметы легко скрываются в беспорядке. В этой статье предложен новый метод искусственного интеллекта (ИИ), который помогает рентген-аппаратам надежнее выявлять мелкие или перекрывающиеся угрозы и при этом работать достаточно быстро для загруженных пунктов контроля.

Проблема видения сквозь хаос
Рентген-системы безопасности — первая линия обороны в аэропортах, метро и других многолюдных местах. Традиционный человеческий осмотр медленный и утомителен, что увеличивает риск пропуска предметов. Современные ИИ-детекторы, такие как семейство YOLO, улучшили автоматическую проверку, но они изначально создавались для обычных фотографий, а не для призрачных, низкоконтрастных рентген-кадров. На таких снимках объекты часто перекрываются, кажутся полупрозрачными и сильно различаются по размеру. Маленькие лезвия или бутылки могут скрываться среди безвредных вещей, а многие текущие алгоритмы либо не замечают их, либо требуют большой вычислительной мощности, которую трудно развернуть на компактных и недорогих устройствах.
Более стройный «мозг» для рентген-аппаратов
Авторы строят работу на популярном детекторе YOLOv8 и перерабатывают его специально для рентген-изображений. Первый шаг — облегчение сети с помощью сверточных операций «с поэтапной глубиной» (depthwise separable) — технический способ сказать, что модель анализирует шаблоны экономнее. Вместо применения больших и дорогих фильтров ко всем каналам изображения одновременно, операция разбивается на более дешевые этапы. Это сокращает количество вычислений примерно на четверть до двух пятых, при этом сохраняя тонкие детали, необходимые для обнаружения мелких и частично скрытых объектов. В результате получается более легкий цифровой «мозг», который может работать в реальном времени на скромном оборудовании, например встроенных процессорах сканеров.
Помощь модели в концентрации на важном
Уменьшить сеть недостаточно — она должна стать более избирательной. Для этого исследователи вводят модуль Channel-Spatial Attention Fusion (CSAF). Одна ветвь этого модуля учится, какие виды визуальных признаков — края, формы или подсказки о материале — наиболее информативны в целом, а другая ветвь учится, где в изображении происходит действие. Вместо последовательного применения этих механизмов внимания, CSAF обрабатывает их параллельно и затем объединяет, чтобы система могла одновременно учитывать «что» и «где». Эти блоки внимания встраиваются в многоуровневую архитектуру, которая сочетает грубые и детальные представления сцены; это особенно полезно для обнаружения крошечных, перекрывающихся предметов в переполненных сумках.

Обучение системе различать похожие объекты
Еще одна трудность рентген-сканов в том, что многие предметы выглядят похоже: жестяная банка и аэрозольный баллончик или разные типы ножей могут иметь почти идентичные силуэты. Чтобы модель лучше различала такие категории, авторы добавляют задачу контрастного обучения. Во время обучения сеть поощряют сближать в своем внутреннем представлении примеры одного класса и раздвигать примеры разных классов. Одновременно с этим мера перекрытия на уровне пикселей PIoU помогает тонко настроить положение и форму предсказанных ограничивающих рамок, что критично, когда объекты наклонены, плотно упакованы или частично видимы. В совокупности эти функции потерь учат модель не только «где» находится объект, но и «что» отличает его от вводящих в заблуждение соседей.
Подтверждение эффективности в реалистичных тестах
Команда оценивает свой подход на двух сложных рентген-датасетах, которые включают реальные пункты досмотра и синтетические сцены с багажом с несколькими категориями угроз. По сравнению со стандартной базой YOLOv8 их модель достигает более высокой точности по строгим метрикам перекрытия при меньшем количестве параметров и вычислений. Она сохраняет очень высокие показатели обнаружения для острых предметов и улучшает распознавание прозрачных или деформируемых объектов, таких как бутылки и картонные упаковки напитков. Кривые «точность—доверие» и «полнота—доверие» показывают, что предсказания остаются стабильными даже при повышении порога для фиксации детекции, что означает меньше ложных тревог и меньше пропусков угроз. Тесты на втором датасете, собранном в другом месте, подтверждают, что система хорошо обобщается — важное требование для реального внедрения, где содержимое сумок и условия съёмки различаются.
Что это значит для обычных путешественников
Для неспециалиста итог прост: эта работа предлагает более умный и экономный способ сканирования багажа. Переработав современный ИИ-детектор так, чтобы он был одновременно легким и более избирательным, авторы позволяют рентген-аппаратам работать быстро на доступном оборудовании, при этом находя маленькие, перекрывающиеся или похожие друг на друга угрозы. Если такие методы будут приняты на практике, они могут помочь сократить очереди, уменьшить ненужные досмотры — и, что важнее всего, повысить вероятность того, что действительно опасные предметы будут обнаружены до того, как доберутся до выхода на посадку.
Цитирование: Diao, Q., Chan, W., Zain, A.M. et al. A lightweight multi-scale detection framework for X-ray images with supervised contrastive learning. Sci Rep 16, 8635 (2026). https://doi.org/10.1038/s41598-026-38000-0
Ключевые слова: рентгеновая безопасность, обнаружение объектов, глубокое обучение, проверка в аэропорту, компьютерное зрение