Clear Sky Science · pl

Inteligentne rozpoznawanie wzorów na haftowanych sakiewkach: porównanie serii YOLO i RT-DETR

· Powrót do spisu

Dlaczego stare haftowane sakiewki mają dzisiaj znaczenie

W całych Chinach małe haftowane sakiewki niegdyś zawierały zioła, amulety i życzenia pomyślności. Dziś wiele z nich przetrwało wyłącznie w muzealnych szufladach i prywatnych kolekcjach. Każdy drobny wyszyty kwiat czy smok kryje opowieści o wierzeniach, modzie i życiu codziennym. Ręczna digitalizacja i katalogowanie tych bogato zdobionych obiektów jest jednak niezwykle czasochłonne. W niniejszym badaniu zbadano, jak nowoczesna sztuczna inteligencja może automatycznie rozpoznawać wzory na sakiewkach, wspierając muzea i społeczności w zachowaniu ważnego elementu niematerialnego dziedzictwa kulturowego w erze cyfrowej.

Figure 1
Figure 1.

Od ręki i oka do inteligentnego rozpoznawania

Tradycyjnie eksperci identyfikowali wzory na sakiewkach, uważnie przeglądając fotografie i konsultując książkowe źródła. Takie podejście nie skaluje się do dziesiątek tysięcy obiektów rozproszonych w archiwach. Badacze zgromadzili zatem specjalistyczny zbiór obrazów obejmujący 783 haftowane sakiewki pochodzące z książek i cyfrowego archiwum dużego muzeum. Zdefiniowali osiem powszechnych kategorii motywów – w tym rośliny i kwiaty, ptaki i zwierzęta, owady i życie wodne, krajobrazy i budowle, symbole i postacie pisane, sceny i opowieści, artefakty i antyki oraz wzory geometryczne – po czym starannie narysowali ramki wokół każdego motywu na wszystkich obrazach. Aby przeciwdziałać niewielkiemu rozmiarowi zbioru danych, cyfrowo odwracali, obracali, rozjaśniali, przyciemiali i rozmazywali obrazy, powiększając materiał treningowy ponad czterokrotnie, jednocześnie weryfikując etykiety za pomocą oprogramowania i ekspertów ds. dziedzictwa kulturowego.

Testowanie popularnych narzędzi AI

Z tym skuratorowanym zbiorem danych badacze porównali dwie rodziny systemów wykrywania obiektów. Jedna rodzina, znana jako YOLO, jest powszechnie stosowana do szybkich zadań, takich jak wykrywanie pieszych czy samochodów w wideo. Modele te analizują obraz w jednym przebiegu i silnie polegają na lokalnych fragmentach obrazu. Druga, nowsza konstrukcja, nazwana RT-DETR, łączy konwencjonalne filtry obrazowe z uwagą w stylu transformatora, która może powiązać drobne ściegi z ogólną sceną. Autorzy najpierw dostroili kilka wariantów YOLO i wybrali YOLOv5m jako silny punkt odniesienia. Wykazał on rozsądną wydajność w niektórych kategoriach – zwłaszcza w złożonych scenach narracyjnych sklasyfikowanych jako „Sceny i opowieści” – ale miał problemy, gdy motywy były małe, silnie nachodzące na siebie lub wtapiały się w tło. W takich przypadkach kwiaty mogły znikać, granice geometryczne były błędnie odczytywane, a fragmenty obrazu oznaczane jako puste tło.

Jak hybrydowy transformator widzi ściegi

Badacze skupili się następnie na ulepszeniu RT-DETR dla tego nietypowego wyzwania wizualnego. Zastąpili jego standardowy rdzeń sieciowy (backbone) ConvNeXt-Large, nowoczesną sieć konwolucyjną zaprojektowaną tak, aby wychwytywać finezyjne tekstury, zachowując jednocześnie ogląd na szerszy kontekst. Przyjęli także strategię treningową nazwaną Focal Loss, która nakazuje modelowi zwracać dodatkową uwagę na trudne, łatwo mylone przykłady zamiast polegać na prostych. W RT-DETR cechy obrazu sakiewki są wyodrębniane na kilku skalach i łączone, podczas gdy mechanizm uwagi łączy odległe, lecz powiązane regiony, takie jak pary zwierząt czy powtarzające się bordiury. Dzięki starannym studiom ablacjnym i stopniowemu dostrajaniu harmonogramów uczenia oraz regularyzacji autorzy opracowali zoptymalizowaną konfigurację, która równoważy dokładność i stabilność w wielu treningach.

Figure 2
Figure 2.

Co osiąga ulepszony system

Mierzone przy użyciu standardowych miar wykrywania obiektów, ulepszone RT-DETR wyraźnie przewyższyło modele YOLO. Jego główna metryka dokładności, mAP@0.5, osiągnęła 0,5433 – co stanowi około 33% poprawę w stosunku do punktu odniesienia YOLOv5m – a statystyki wskazują, że ten wzrost jest mało prawdopodobny do przypadkowego wyniku. System najlepiej radził sobie w złożonych scenach narracyjnych, osiągając średnią precyzję 0,833 dla kategorii „Sceny i opowieści”, i odzyskał wiele motywów, które YOLO przeoczyło, szczególnie w rzadkich lub słabo reprezentowanych kategoriach, takich jak krajobrazy i bordiury geometryczne. Okazał się też bardziej spójny w powtarzanych eksperymentach, co wskazuje na niezawodne działanie, a nie kruche dopasowanie do pojedynczego podziału trening-test. Kosztem jest rozmiar: najlepszy model RT-DETR jest znacznie większy i cięższy niż jego odpowiedniki z rodziny YOLO, co może ograniczać wdrożenie na lekkich urządzeniach.

Co to oznacza dla dziedzictwa kulturowego

Dla osób niezwiązanych ze specjalistyczną dziedziną kluczowy wniosek jest taki, że komputery uczą się nie tylko znajdować samochody i twarze, lecz także „czytać” język tradycyjnego rzemiosła. Pokazując, że detektor oparty na transformatorze, starannie dostosowany i wytrenowany, potrafi precyzyjniej wychwytywać gęste, nachodzące na siebie motywy haftu niż popularne modele czasu rzeczywistego, praca ta ustanawia punkt odniesienia dla przyszłych narzędzi. Muzea i instytucje kultury mogłyby w przyszłości używać takich systemów do wyszukiwania ogromnych kolekcji zdjęć według motywu, śledzenia, jak ewoluowały określone symbole, lub pomagania rzemieślnikom w odtwarzaniu dawnych wzorów. Autorzy podkreślają, że wydajność wciąż pozostaje umiarkowana i potrzebne są dalsze ulepszenia – w tym lżejsze modele oraz dodanie wiedzy kulturowej i opisów tekstowych – zanim możliwe będzie wdrożenie na dużą skalę. Mimo to badanie stanowi istotny krok w kierunku inteligentnego i szanującego podejścia do cyfrowego zarządzania dziedzictwem haftowanych sakiewek.

Cytowanie: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

Słowa kluczowe: rozpoznawanie wzorów haftu, niematerialne dziedzictwo kulturowe, wykrywanie obiektów, widzenie oparte na transformatorach, cyfrowa konserwacja