Clear Sky Science · pl

Klasyfikacja obrazów zabytkowej architektury przy użyciu progresywnego układania i uczenia pseudoodwrotnego

· Powrót do spisu

Dlaczego stare budowle spotykają współczesne algorytmy

W całych Chinach świątynie i pałace z rozłożystymi dachami i misternymi drewnianymi wspornikami są fotografowane masowo. Archiwiści i konserwatorzy muszą szybko sortować te zdjęcia, ale robienie tego wzrokowo jest powolne i subiektywne. Artykuł przedstawia nowy sposób uczenia komputerów rozpoznawania i klasyfikowania fotografii zabytkowych budowli bardziej dokładnie i wydajnie, co pomaga chronić dziedzictwo kulturowe w erze cyfrowej.

Figure 1
Figure 1.

Co sprawia, że te budowle trudno rozróżnić

Starożytna chińska architektura obfituje w powtarzalne wzory: zakrzywione linie dachów, warstwowe zestawy wsporników pod okapami, rzeźbione belki i barwne dekoracje powierzchni. Wiele budynków ma podobne układy, różniąc się jedynie subtelnymi zmianami krzywizny dachu czy formy wsporników. Standardowe systemy rozpoznawania obrazów, które uczą się, stopniowo dostosowując wewnętrzne wagi, mogą zostać zmylone przez te drobne różnice oraz przez rozpraszające sygnały, takie jak kolor ścian czy oświetlenie. Mają też tendencję do dopasowywania się nadmiernie do jednego regionu lub stylu, gdy są trenowane jednocześnie na dużej partii zdjęć, co ogranicza ich zdolność do uogólniania na budowle z innych miejsc.

Inteligentniejsze spojrzenie na kluczowe detale

Autorzy wprowadzają ramy nazwane klasyfikacją obrazów zabytkowej architektury z użyciem progresywnego układania i uczenia pseudoodwrotnego (AAPSP). W jej centrum znajduje się moduł określony jako układanie kluczowych cech z uczeniem pseudoodwrotnym (KFSP). Zamiast zaczynać od całkowicie losowych ustawień, KFSP buduje kilka równoległych „uczniów bazowych”, zainicjowanych wzorcami wag zaprojektowanymi tak, by odpowiadać określonym cechom wizualnym. Dwie gałęzie są dostrojone, by być szczególnie wrażliwe na gładkie, ciągłe struktury, takie jak zarysy dachów, podczas gdy trzecia jest nastawiona na wychwytywanie bardziej rozproszonej faktury, jak motywy dekoracyjne. Matematyczny skrót znany jako uczenie pseudoodwrotne pozwala trenować te gałęzie praktycznie za jednym zamachem, unikając powolnych, krok po kroku aktualizacji wag charakterystycznych dla tradycyjnego uczenia głębokiego.

Pozwolenie modelowi, aby zwracał uwagę tam, gdzie to ważne

Posiadanie wielu gałęzi to za mało; system musi też zdecydować, która gałąź jest najbardziej pomocna przy danej decyzji. W tym celu KFSP wykorzystuje mechanizm uwagi, który mierzy, jak blisko wyjścia każdej gałęzi odpowiadają prawdziwym etykietom budynku. Gałęzie, które lepiej wychwytują charakterystyczne elementy — takie jak kształt łuku czy zarys ozdoby grzbietu — otrzymują automatycznie większy wpływ przy łączeniu ich wyjść. Ta warstwowa reprezentacja tworzy przestrzeń cech, która bliżej odpowiada podstawowej „logice kształtu” w zabytkowej architekturze, dzięki czemu budowle o podobnych elementach strukturalnych grupują się razem, a te o odmiennych stylach oddzielają się wyraźniej.

Figure 2
Figure 2.

Nauka na najbardziej informacyjnych zdjęciach

Drugi podstawowy moduł, progresywne uczenie optymalizacyjne (POL), rozwiązuje inny problem: nadmiarowe zdjęcia treningowe. Wiele fotografii w zbiorze pokazuje niemal identyczne ujęcia tej samej fasady, dostarczając niewiele nowych informacji. POL zaczyna od podziału danych na początkowy zestaw treningowy i większą pulę kandydatów. Korzystając z pomysłów z uczenia aktywnego, analizuje, z jaką pewnością obecny model klasyfikuje każde zdjęcie-kandydata i jak nietypowe są jego cechy. Zdjęcia, które są jednocześnie niepewne i wyróżniające się — na przykład rzadkie układy wsporników czy nietypowe kombinacje dachów — są stopniowo przenoszone do zestawu treningowego. Cykl ten się powtarza, systematycznie wzbogacając dane treningowe o trudne i zróżnicowane przykłady, bez zwiększania całkowitej liczby użytych obrazów.

Jak to działa w praktyce

Autorzy przetestowali swoje podejście na publicznym zbiorze 2269 zdjęć z sześciu słynnych świątyń i pałaców. Już po zastosowaniu samego KFSP system przewyższył porównywalną metodę opartą na całkowicie losowych projekcjach. Po dodaniu progresywnego wyboru próbek w POL dokładność klasyfikacji jeszcze wzrosła, a miary precyzji, czułości i F1 poprawiły się. Innymi słowy, model stał się zarówno bardziej niezawodny w poprawnych przewidywaniach, jak i lepszy w wykrywaniu rzadziej występujących kategorii. Badanie wskazało także pozostałe wyzwanie: klasy z bardzo małą liczbą zdjęć wciąż stanowią problem, ponieważ nawet inteligentny algorytm ma trudności, gdy brakuje wystarczającej różnorodności materiału do nauki.

Dlaczego to ma znaczenie dla dziedzictwa kulturowego

Poprzez świadome kierowanie zarówno uwagi modelu, jak i tego, od których zdjęć się uczy, AAPSP oferuje precyzyjniejsze narzędzie do sortowania i badania fotografii historycznych budynków. Dla specjalistów od dziedzictwa oznacza to szybsze tworzenie archiwów cyfrowych, lepsze wsparcie przy datowaniu i porównywaniu stylów architektonicznych oraz bardziej niezawodne monitorowanie obiektów rozproszonych w różnych regionach. Choć metoda jest dostosowana do chińskiej zabytkowej architektury, jej podstawowe idee — uwydatnianie kluczowych detali strukturalnych i progresywne skupianie się na rzadkich, ale informatywnych przykładach — mogą być zaadaptowane do innych rodzajów obiektów kulturowych, od rzeźb po historyczne panoramy uliczne.

Cytowanie: Cai, Z., Sun, X., Zhang, S. et al. Ancient architecture image classification with progressive stacking pseudoinverse learning. Sci Rep 16, 14626 (2026). https://doi.org/10.1038/s41598-026-44876-9

Słowa kluczowe: zabytkowa architektura, klasyfikacja obrazów, dziedzictwo kulturowe, uczenie maszynowe, uczenie aktywne