Clear Sky Science · pl

Algorytm rozpoznawania obrazów dla drobnych, wysokoczęstotliwościowych detali oparty na architekturze sieci wielogałęziowej

2026-02-25 · Powrót do spisu

Mądrzejsze oczy dla części fabrycznych

Współczesne fabryki polegają na kamerach i komputerach, by z dużą prędkością sortować tysiące niemal identycznych metalowych elementów. Gdy te części różnią się jedynie drobnymi szczegółami powierzchni, nawet zaawansowane oprogramowanie do rozpoznawania obrazów może się mylić, co prowadzi do błędnego sortowania, przestojów produkcyjnych i dodatkowych kosztów. W pracy tej przedstawiono nowy sposób, w jaki maszyny mogą „widzieć” i rozróżniać takie podobne komponenty, obiecujący bardziej niezawodną, elastyczną i wydajną automatyzację produkcji.

Dlaczego podobne części trudno odróżnić

W wielu liniach produkcyjnych tzw. wysokoczęstotliwościowe detale — płaskie metalowe elementy wytwarzane w dużych ilościach — muszą zostać sklasyfikowane do dziesiątek kategorii. Trudność polega na tym, że części z tej samej kategorii mogą wykazywać skomplikowane tekstury powierzchni, podczas gdy części z różnych kategorii mogą wyglądać niemal identycznie od góry. Zmiany oświetlenia i różnice w pozycjonowaniu części przed kamerą dodatkowo utrudniają zadanie. Tego typu problem zalicza się do tzw. rozpoznawania drobnych różnic: nie chodzi tylko o odróżnienie samochodu od człowieka, lecz o rozróżnienie bardzo podobnych części na podstawie subtelnych wskazówek.

Dwutorowe spojrzenie na każdą część

Badacze bazują na zwartej sieci neuronowej znanej jako EfficientNet-B0 i przekształcają ją w system wielogałęziowy nazwany MBEN. Zamiast podawać sieci jedynie pełny obraz części, pozwalają modelowi najpierw w przybliżeniu określić, który obszar obrazu zawiera najbardziej rozpoznawalne informacje. Specjalny słabo nadzorowany moduł wykrywania regionów tworzy rodzaj mapy cieplnej, która uwidacznia prawdopodobne kluczowe strefy, a następnie wycina mniejszy fragment obrazu wokół tego obszaru. Pełny obraz trafia do jednej gałęzi sieci (gałąź globalna), podczas gdy zbliżenie trafia do innej (gałąź lokalna). Takie rozwiązanie pozwala systemowi uczyć się zarówno ogólnego wyglądu, jak i drobnych, zlokalizowanych różnic, które rozróżniają typy części.

Nauczanie modelu, co naprawdę ma znaczenie

Samo dostarczenie dwóch widoków nie wystarcza; sieć musi też nauczyć się skupiać na właściwych rozróżnieniach. W tym celu autorzy zaprojektowali moduł augmentujący stratę — reguły kierujące sposobem, w jaki sieć dostosowuje się podczas treningu. Jedna część tego modułu sprawia, że system zwraca dodatkową uwagę na kategorie, które w danym momencie sprawiają mu trudność, aby nie stał się nadmiernie pewny siebie w prostych przypadkach i nie zaniedbywał trudnych. Inna część zachęca, by obrazy tego samego typu detalu kończyły blisko siebie w wewnętrznej reprezentacji sieci, jednocześnie odpychając reprezentacje różnych typów. Wspólnie te mechanizmy kształtują jaśniejszą wewnętrzną mapę kategorii części, zwiększając szansę, że nowe, niewidziane obrazy zostaną sklasyfikowane poprawnie.

Łączenie obrazu całości z zbliżeniem

Po tym, jak gałąź globalna i lokalna każda wygeneruje własne przewidywania, moduł fuzji gałęzi łączy je w ostateczną decyzję. Badacze stroją, ile powinna wnosić każda gałąź, i stwierdzają, że najlepsze wyniki daje nieznacznie większe przypisanie wagi do obrazu globalnego przy jednoczesnym silnym poleganiu na zbliżonym regionie. Metodę przetestowano na niestandardowym zbiorze danych zawierającym 20 rodzajów wysokoczęstotliwościowych detali fotografowanych w realistycznym oświetleniu fabrycznym, z tysiącami obrazów rozszerzonych technikami augmentacji danych, takimi jak obroty i losowe przycinanie. System MBEN osiąga 98,75% dokładności — o kilka punktów procentowych lepiej niż szereg istniejących metod rozpoznawania drobnych różnic — przy stosunkowo umiarkowanych wymaganiach obliczeniowych.

Co to oznacza dla produkcji w praktyce

Praca pokazuje, że łączenie kontekstu całego obrazu, automatycznie wykrywanych fragmentów z detalami oraz starannie zaprojektowanych reguł treningowych może znacznie zwiększyć niezawodność widzenia maszynowego w trudnych zadaniach przemysłowych. Dla producentów takie ulepszenia mogą przekładać się na mniej błędów sortowania, mniej kontroli manualnych i większą elastyczność przy przełączaniu między wieloma podobnymi typami produktów. Chociaż badanie nie zajmuje się jeszcze problemem niezrównoważonych danych z rzeczywistego świata, gdzie niektóre typy części są znacznie rzadsze, wyniki sugerują, że mądrzejsze, bardziej selektywne cyfrowe „oczy” mogą nadążyć za coraz precyzyjniejszymi i bardziej zróżnicowanymi liniami produkcyjnymi.

Cytowanie: Deng, J., Sun, C., Lin, J. et al. An image recognition agorithm for fine-grained high-frequency workpieces based on a multi-branch network architecture. Sci Rep 16, 11067 (2026). https://doi.org/10.1038/s41598-026-41639-4

Słowa kluczowe: przemysłowe rozpoznawanie obrazów, klasyfikacja drobnych różnic, zautomatyzowana kontrola jakości, widzenie komputerowe w produkcji, sieci neuronowe