Clear Sky Science · nl

Een afbeeldingsherkenningsalgoritme voor fijnmazige hoogfrequente werkstukken gebaseerd op een meerarmige netwerkarchitectuur

· Terug naar het overzicht

Slimmere ogen voor fabrieksonderdelen

Moderne fabrieken vertrouwen op camera’s en computers om duizenden bijna identieke metalen onderdelen met hoge snelheid te sorteren. Wanneer die onderdelen alleen in kleine oppervlaktesdetails verschillen, kunnen zelfs geavanceerde beeldherkenningssystemen de weg kwijt raken, wat leidt tot foutief gesorteerde items, productievertragingen en extra kosten. Deze studie presenteert een nieuwe manier waarop machines zulke sterk gelijkende componenten kunnen "zien" en uit elkaar kunnen houden, wat belooft voor betrouwbaardere, flexibelere en efficiëntere geautomatiseerde productie.

Waarom gelijkende onderdelen moeilijk te onderscheiden zijn

Op veel productielijnen moeten zogenaamde hoogfrequente werkstukken — platte metalen onderdelen die in grote aantallen worden gemaakt — in tientallen categorieën worden ingedeeld. De uitdaging is dat onderdelen binnen dezelfde categorie ingewikkelde oppervlaktestructuren kunnen vertonen, terwijl onderdelen uit verschillende categorieën van bovenaf bijna hetzelfde kunnen lijken. Veranderingen in belichting en variaties in de positionering van een onderdeel ten opzichte van de camera maken het probleem nog moeilijker. Dit soort taak valt onder wat computerwetenschappers fijnmazige herkenning noemen: niet alleen een auto van een persoon onderscheiden, maar één zeer gelijkend onderdeel van een ander onderscheiden op basis van subtiele aanwijzingen.

Figure 1
Figuur 1.

Een tweesporige manier om elk onderdeel te bekijken

De onderzoekers bouwen voort op een compact neuraal netwerk dat bekendstaat als EfficientNet‑B0 en veranderen het in een meerarmig systeem dat ze MBEN noemen. In plaats van het netwerk alleen de volledige afbeelding van een onderdeel te geven, laten ze het model eerst globaal bepalen welk gebied van de afbeelding de meest onderscheidende informatie bevat. Een speciaal zwak-gestuurd regiendetectiemodule creëert een soort warmtekaart die waarschijnlijke sleutelzones oplicht, en knipt vervolgens een kleinere afbeeldingspatch rond dit gebied uit. De volledige afbeelding gaat door één tak van het netwerk (de globale tak), terwijl de uitgeknipte close-up door een andere tak (de lokale tak) gaat. Dit ontwerp stelt het systeem in staat zowel het algemene uiterlijk als de kleine, gelokaliseerde verschillen te leren die het ene onderdeeltype van het andere scheiden.

Het model leren wat echt telt

Het simpelweg aanbieden van twee gezichtspunten is niet genoeg; het netwerk moet ook worden geleerd zich op de juiste onderscheidingen te concentreren. Om dit te bereiken ontwerpen de auteurs een verlies-augmentatiemodule — regels die sturen hoe het netwerk zich tijdens training aanpast. Een deel van deze module zorgt ervoor dat het systeem extra aandacht besteedt aan categorieën die het momenteel verwarrend vindt, zodat het niet overmoedig wordt bij makkelijke gevallen en moeilijke gevallen verwaarloost. Een ander deel moedigt aan dat afbeeldingen van hetzelfde type werkstuk dicht bij elkaar komen te liggen in de interne representatie van het netwerk, terwijl verschillende types verder uit elkaar worden geduwd. Samen vormen deze mechanismen een duidelijker intern kaartbeeld van de onderdeelcategorieën, wat de kans vergroot dat nieuwe, niet eerder geziene beelden correct worden geclassificeerd.

Figure 2
Figuur 2.

Het grote geheel mengen met de close-up

Nadat de globale en lokale takken elk hun voorspellingen hebben geproduceerd, combineert een takfusie-module deze tot een definitieve beslissing. De onderzoekers stemmen af hoeveel elke tak zou moeten bijdragen en ontdekken dat het iets meer gewicht geven aan de globale afbeelding, maar nog steeds sterk afhankelijk blijven van de close-upregio, het beste werkt. Ze testen hun methode op een aangepaste dataset van 20 soorten hoogfrequente werkstukken gefotografeerd onder realistische fabrieksverlichting, met duizenden afbeeldingen uitgebreid via data-augmentatietrucs zoals rotaties en willekeurige uitsneden. Het MBEN-systeem bereikt 98,75% nauwkeurigheid — enkele procentpunten beter dan een reeks bestaande fijnmazige herkenningsmethoden — terwijl het relatief bescheiden rekencapaciteit gebruikt.

Wat dit betekent voor productie in de echte wereld

De studie laat zien dat het combineren van context uit de volledige afbeelding, automatisch ontdekte detailpatches en zorgvuldig ontworpen trainingsregels machinevisie veel betrouwbaarder kan maken voor moeilijke industriële taken. Voor fabrikanten kunnen dergelijke verbeteringen zich vertalen in minder sorteermissers, minder handmatige inspectie en grotere flexibiliteit bij het wisselen tussen veel gelijkende producttypes. Hoewel het werk nog niet omgaat met ongelijke, in de echte wereld voorkomende data, waarbij sommige onderdeeltypes veel zeldzamer zijn dan andere, suggereren de resultaten dat slimere, meer selectieve digitale "ogen" kunnen bijbenen met steeds preciezere en gevarieerdere productielijnen.

Bronvermelding: Deng, J., Sun, C., Lin, J. et al. An image recognition agorithm for fine-grained high-frequency workpieces based on a multi-branch network architecture. Sci Rep 16, 11067 (2026). https://doi.org/10.1038/s41598-026-41639-4

Trefwoorden: industriële beeldherkenning, fijnmazige classificatie, geautomatiseerde kwaliteitscontrole, computervisie in de productie, neurale netwerken