Clear Sky Science · ru
Алгоритм распознавания изображений для мелкозернистых часто встречающихся заготовок на основе многоветвевой сетевой архитектуры
Более умные «глаза» для заводских деталей
Современные заводы полагаются на камеры и компьютеры, чтобы на высокой скорости сортировать тысячи почти одинаковых металлических деталей. Когда эти детали отличаются лишь крошечными поверхностными признаками, даже продвинутые системы распознавания изображений могут ошибаться, что приводит к неверной сортировке, задержкам в производстве и дополнительным расходам. В этом исследовании предложен новый способ, с помощью которого машины могут «видеть» и различать такие похожие компоненты, обещая более надежное, гибкое и эффективное автоматизированное производство.
Почему похожие детали трудно различать
На многих производственных линиях так называемые часто встречающиеся заготовки — плоские металлические детали, выпускаемые в большом количестве — должны быть классифицированы по десяткам категорий. Проблема в том, что детали внутри одной категории могут иметь сложную структуру поверхности, в то время как детали из разных категорий сверху выглядят почти одинаково. Изменения освещения и вариации в положении детали перед камерой усложняют задачу ещё больше. Такая задача относится к тому, что в информатике называют тонким (fine‑grained) распознаванием: не просто отличить автомобиль от человека, а различить очень похожие детали по едва заметным признакам.

Двухпутный подход к рассмотрению каждой детали
Исследователи опираются на компактную нейронную сеть EfficientNet‑B0 и превращают её в многоветвевую систему, которую называют MBEN. Вместо того чтобы подавать в сеть только целое изображение детали, сначала модель примерно определяет, какая область изображения содержит наиболее отличительную информацию. Специальный слабо контролируемый модуль обнаружения областей создаёт некую тепловую карту, подсвечивающую вероятные ключевые зоны, затем вырезает меньший фрагмент изображения вокруг этой области. Полное изображение проходит через одну ветвь сети (глобальная ветвь), а увеличенный фрагмент — через другую (локальная ветвь). Такая архитектура позволяет системе изучать и общий вид, и крошечные локальные различия, которые отделяют один тип детали от другого.
Обучение модели выделять действительно важное
Просто предоставить два вида изображения недостаточно; сети нужно также объяснить, на какие отличия ориентироваться. Для этого авторы разрабатывают модуль изменения функции потерь — набор правил, руководящих тем, как сеть корректируется в процессе обучения. Одна часть этого модуля заставляет систему уделять дополнительное внимание категориям, которые она в настоящий момент путает, чтобы она не становилась чрезмерно уверенной в лёгких случаях и не пренебрегала сложными. Другая часть поощряет, чтобы изображения одного типа заготовки располагались близко друг к другу во внутреннем представлении сети, в то время как представления разных типов отталкивались бы. В совокупности эти механизмы формируют более ясную внутреннюю карту категорий, повышая вероятность правильной классификации новых, ранее не виденных изображений.

Слияние общего вида и крупного плана
После того как глобальная и локальная ветви выдают свои предсказания, модуль слияния ветвей объединяет их в окончательное решение. Исследователи настраивают вклад каждой ветви, обнаружив, что лучшей оказывается стратегия с небольшим приоритетом глобального изображения, но с существенной опорой на фрагмент крупного плана. Они тестируют метод на собственном наборе данных, содержащем 20 типов часто встречающихся заготовок, сфотографированных при реалистичном заводском освещении, с тысячами изображений, расширенных приёмами аугментации данных, такими как повороты и случайные обрезки. Система MBEN достигает точности 98,75% — на несколько процентных пунктов лучше ряда существующих методов тонкого распознавания — при относительно умеренных вычислительных затратах.
Что это значит для реального производства
Исследование показывает, что сочетание контекста всего изображения, автоматически обнаруживаемых фрагментов с деталями и тщательно продуманных правил обучения может сделать машинное зрение гораздо более надёжным для сложных промышленных задач. Для производителей такие улучшения могут означать меньше ошибок сортировки, меньше ручной проверки и большую гибкость при переключении между множеством похожих типов продукции. Хотя работа ещё не рассматривает проблему несбалансированных реальных данных, где некоторые типы деталей встречаются значительно реже, результаты указывают на то, что более умные и избирательные цифровые «глаза» способны не отставать от всё более точных и разнообразных производственных линий.
Цитирование: Deng, J., Sun, C., Lin, J. et al. An image recognition agorithm for fine-grained high-frequency workpieces based on a multi-branch network architecture. Sci Rep 16, 11067 (2026). https://doi.org/10.1038/s41598-026-41639-4
Ключевые слова: распознавание промышленных изображений, тонкая классификация, автоматизированный контроль качества, компьютерное зрение в производстве, нейронные сети