Clear Sky Science · pl

Uczenie reprezentacji o wysokiej szczegółowości dla wykrywania pisma Yi o ograniczonych zasobach i tworzenia zbioru danych

· Powrót do spisu

Ratowanie kruchego dziedzictwa pisanego

Lud Yi z południowo-zachodnich Chin przez wieki zachowywał bogatą tradycję pisaną, zapisując medycynę, astronomię, religię i życie codzienne we własnym piśmie. Jednak wiele z tych rękopisów blaknie, jest poplamionych lub inaczej uszkodzonych, a samo pismo jest wizualnie złożone. Ręczne przepisanie setek tysięcy znaków jest powolne i kosztowne. Artykuł przedstawia nowy system widzenia komputerowego zaprojektowany specjalnie do wykrywania i izolowania znaków Yi na zdigitalizowanych obrazach starych dokumentów, kładąc podstawy do szerokiej cyfryzacji i ochrony tego zagrożonego dziedzictwa pisanego.

Figure 1
Figure 1.

Dlaczego to pismo jest tak trudne dla komputerów

W przeciwieństwie do bardziej znanego alfabetu łacińskiego czy nawet współczesnego drukowanego chińskiego, znaki Yi zbudowane są z gęstych, zakrzywionych kresek, które często splatają się ze sobą. Wiele różnych znaków wygląda bardzo podobnie, a ten sam znak może przybierać nieco inne kształty w różnych epokach i rękopisach. Strony historyczne często mają ciasne układy wielokolumnowe, z nieregularnymi odstępami i nachodzącymi na siebie kreskami. Do tego dochodzi wyblaknięcie tuszu, pofałdowane kartki i plamiste tło. Starsze metody detekcji, opierające się na stałych regułach dotyczących odstępów lub na ogólnych modelach wykrywania tekstu, mają tendencję do łączenia sąsiednich znaków, pomijania słabych kresek lub mylenia szumu tła z zapisem. Autorzy twierdzą, że manuskrypty Yi stanowią rodzaj „najgorszego przypadku” dla detekcji tekstu i że rozwiązanie tego problemu może pomóc wielu innym pismom o ograniczonych zasobach.

Nowy sposób dostrzegania drobnych detali

Aby sprostać tym wyzwaniom, badacze zaprojektowali wyspecjalizowaną sieć neuronową nazwaną FGRL-YiNet (Fine-Grained Representation Learning Network for Yi). W jej centrum znajduje się modyfikacja standardowych warstw splotowych, podstawowego narzędzia współczesnego rozpoznawania obrazów. Zamiast używać jednego, stałego wzoru filtrów wszędzie, FGRL-YiNet stosuje dynamiczną konwolucję: kilka kandydatów filtrów działa równolegle, a mały moduł sterujący decyduje, dla każdego obszaru obrazu, w jakim stopniu polegać na każdym z nich. Pozwala to systemowi subtelnie dostosować „pole recepcyjne” do lokalnych wzorców kresek, lepiej wychwytując delikatne krzywizny i węzły, bez zaburzania przez zagracone tło czy uszkodzenia stron. Zbudowany na zwartej bazie ResNet-18, model celowo utrzymano w umiarkowanym rozmiarze, aby mógł efektywnie uczyć się z relatywnie niewielkiej ilości adnotowanych danych Yi.

Figure 2
Figure 2.

Łączenie skali i oczyszczanie strony

Wykrywanie znaków na całej stronie manuskryptu wymaga również rozumienia wzorców na wielu rozmiarach jednocześnie — od drobnych falowań pojedynczej kreski po układ całej kolumny. FGRL-YiNet wprowadza moduł Adaptive Multi-Scale Fusion (AMSF), aby to rozwiązać. Sieć najpierw wydobywa cechy na kilku rozdzielczościach, a następnie używa wspólnego mechanizmu uwagi, by zdecydować, która skala i które kanały mają największe znaczenie w danym miejscu. Jedna część tej uwagi koncentruje się na „gdzie” na obrazie ważne są drobne detale, podczas gdy inna skupia się na „jakim” typie cechy — na przykład określonej szerokości kreski lub małej pętli wewnątrz znaku. Równolegle głowica różniczkowej binarizacji uczy się oddzielać tusz od tła, przewidując zarówno mapę prawdopodobieństwa, jak i lokalnie zmienny próg. Ponieważ ten krok jest wbudowany w sieć i trenowany end-to-end, może zachować słabe kreski, które tradycyjna konwersja do czerni i bieli by wypłukała, jednocześnie tłumiąc plamki i zabrudzenia.

Budowanie benchmarku dla rzadkiego pisma

Główną przeszkodą dla każdego wyspecjalizowanego pisma są dane: istnieje niewiele wysokiej jakości zdigitalizowanych manuskryptów Yi, a jeszcze mniej z precyzyjnymi etykietami dla każdego znaku. Zespół rozwiązuje to, tworząc zbiór danych YiPrint-694 z klasyków Yi z Liangshan, co daje niemal 347 000 oznaczonych znaków rozmieszczonych na 694 stronach i 1 165 kategoriach znaków. Łączą staranne wstępne przetwarzanie — redukcję szumu, wzmocnienie krawędzi i binarizację — z półautomatycznym pipeline’em segmentacji oraz żmudną ręczną weryfikacją przez ekspertów języka Yi. Aby imitować wygląd starszych, przebarwionych stron, tworzą dodatkowe obrazy z pożółkłym i przybrudzonym tłem. Ta kuratorowana kolekcja staje się zarówno polem treningowym dla FGRL-YiNet, jak i publicznym benchmarkiem dla przyszłych badań nad pismem Yi i powiązanymi pismami.

Jak dobrze działa system

W testach względem szerokiego zestawu nowoczesnych detektorów tekstu, w tym powszechnie używanych modeli takich jak Faster R-CNN, DBNet++ i PSENet, FGRL-YiNet osiąga najlepsze ogólne wyniki na YiPrint-694. Wykrywa znaki z wysokim F-score wynoszącym 94,7%, napędzanym bardzo wysoką precyzją (98,4%) i silnym recall (91,3%), co oznacza, że rzadko myli tło z tekstem, a jednocześnie znajduje większość znaków na stronie. Eksperymenty ablacyjne, w których usuwane są poszczególne komponenty, pokazują, że każda innowacja — dynamiczna konwolucja, adaptacyjne łączenie wieloskalowe i różniczkowa binarizacja — wnosi mierzalne zyski i że działają najlepiej razem. Model dobrze transferuje się też na większy zbiór MTHv2 historycznych tekstów buddyjskich w języku chińskim, gdzie wypada konkurencyjnie w porównaniu z wiodącymi detektorami ogólnego przeznaczenia, co podkreśla jego szerszy potencjał.

Co to oznacza dla ochrony kultury

Dla osób niezwiązanych bezpośrednio z tematem główne przesłanie jest takie, że staranne, ukierunkowane projektowanie może pomóc komputerom czytać jedne z najtrudniejszych pism świata, nawet gdy dostępne są tylko ograniczone dane treningowe. Poprzez połączenie adaptacyjnych filtrów, inteligentnego łączenia wieloskalowego i wbudowanego oczyszczania zdegradowanych stron, FGRL-YiNet potrafi wiarygodnie zlokalizować pojedyncze znaki Yi w zatłoczonych, uszkodzonych manuskryptach. Ułatwia to znacznie tworzenie przeszukiwalnych archiwów cyfrowych, wspieranie badań językoznawczych i historycznych oraz zabezpieczenie pisemnego zapisu ludu Yi. Autorzy postrzegają swoją architekturę i zbiór danych jako plan działania dla podejmowania pracy nad innymi zaniedbanymi pismami na świecie, pokazując, że postępy w sztucznej inteligencji mogą odegrać bezpośrednią rolę w ochronie kruchego dziedzictwa kulturowego dla przyszłych pokoleń.

Cytowanie: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

Słowa kluczowe: pismo Yi, manuskrypty historyczne, detekcja tekstu, dziedzictwo cyfrowe, uczenie głębokie