Clear Sky Science · pl
Prism-OBI: nowy system rozpoznawania inskrypcji na kościach wróżebnych poprzez percepcję wzrokową i dekompozycję cech
Starożytne wskazówki w pękniętych kościach
Ponad trzy tysiące lat temu ludzie w starożytnych Chinach wyrywali pytania do bogów na kościach zwierząt i skorupach żółwi, tworząc najwcześniej znane chińskie pismo. Dziś te inskrypcje na kościach wróżebnych stanowią cenne źródło informacji o wczesnej historii — jednak większość zachowała się jedynie jako starte, popękane fragmenty, które są niezwykle trudne do odczytania, nawet dla ekspertów. W artykule przedstawiono Prism-OBI, nowy system sztucznej inteligencji zaprojektowany tak, by przeniknąć przez uszkodzenia, oddzielić znaczące kreski od geologicznego szumu i pomóc badaczom odczytywać te kruche zapisy na dużą skalę.
Dlaczego stare kości trudno odczytać
Kości wróżebne przetrwały tysiąclecia pod ziemią, były ściskane przez glebę, nasiąkane i wysychanie w zmiennych warunkach pogodowych oraz pękały podczas wykopalisk. Pismo jest często słabe, przerwane lub niekompletne, a powierzchnie kości pełne są pęknięć i plam, które mylnie przypominają wyryte kreski. Tradycyjne podejścia albo opierały się na mozolnych porównaniach wykonywanych przez ekspertów, albo na standardowym oprogramowaniu do rozpoznawania znaków przeznaczonym dla czystego, współczesnego druku. Oba sposoby zawodzą, gdy pojedynczy znak może być przecięty pęknięciem, częściowo erodowany lub zapisany w nieco innej formie przez różnych kopistów i w różnych epokach. W efekcie wiele materiału pozostaje słabo wykorzystywanych, uwięzionych przez trudność polegającą na prostym ustaleniu, który znak to który.
Nauczenie komputerów patrzenia poza uszkodzenia
Prism-OBI rozwiązuje ten problem, dzieląc rozpoznawanie na dwa starannie skoordynowane etapy zamiast używać jednego ogromnego modelu end-to-end. W pierwszym etapie system skupia się wyłącznie na tym, gdzie znajdują się znaki na odcisku kości, a nie na ich znaczeniu. Zanim jakakolwiek AI obejrzy obraz, dwuetapowy proces oczyszczania zwiększa kontrast i filtruje kropkowy szum skanera, dzięki czemu kreski stają się wyraźniejsze. Oczyszczony odcisk trafia następnie do dostosowanego detektora opartego na szybkim sieciowym modelu wykrywania obiektów, przeprojektowanym tak, aby być „świadomym degradacji”. Oddziela on szerokie kształty od drobnych detali, uwydatnia prawdopodobne wzory kresek, tłumi przypadkowe pęknięcia i łączy informacje z różnych rozmiarów, dzięki czemu można niezawodnie wykrywać zarówno drobne, jak i duże znaki. Wynikiem tego etapu jest zestaw ciasnych ramek obejmujących każdy podejrzany fragment znaku. 
Od wyciętych znaków do rozpoznanych znaków
W drugim etapie każdy wycięty fragment znaku jest skalowany do standardowego kwadratu i podawany do głębokiej sieci neuronowej klasyfikatora zaadaptowanego z powszechnie używanego modelu wizji. Ten klasyfikator specjalizuje się w rozróżnianiu setek subtelnie różnych znaków w zbiorze OBC306, który zawiera ponad 300 000 znaków na kościach wróżebnych w 306 kategoriach, z których każda powiązana jest z nowoczesnym chińskim odpowiednikiem. Ponieważ detektor wykonał już trudną pracę oczyszczania i izolowania znaków, klasyfikator może skoncentrować się na drobnych różnicach w kształcie i układzie kresek — takich jak maleńkie haczyki, przerwy czy przecięcia — zamiast walczyć z szumem tła od oryginalnego odcisku. Testy pokazują, że to połączenie skoncentrowanego detektora z silnym klasyfikatorem daje wyższą dokładność rozpoznawania niż prostsze systemy jednofazowe, a jednocześnie działa na tyle szybko, by nadawać się do użycia w czasie zbliżonym do rzeczywistego. 
Zajrzeć pod maskę nowego detektora
W tle detektor Prism-OBI korzysta z kilku dopasowanych sztuczek, by radzić sobie z silnie zdegradowanymi artefaktami. Jeden moduł dzieli sygnał wizualny na składniki niskoczęstotliwościowe (ogólne kontury) i wysokoczęstotliwościowe (ostre krawędzie), by model mógł traktować szerokie kształty i delikatne czubki kresek inaczej, a następnie stosuje mechanizmy uwagi, które podkreślają konsekwentne wzory kresek zamiast przypadkowych szczelin. Inny moduł buduje piramidę widoków w różnych skalach i uczy się, ile ufać każdemu z nich, co poprawia wykrywanie zarówno maleńkich, jak i większych znaków bez przytłoczenia szumem. Trzeci moduł uczy się ważenia cech z różnych warstw sieci zamiast ich prostego nakładania, co pomaga zachować informacyjne sygnały przy tłumieniu zawodnych. Wreszcie głowica detekcji jawnie koduje pozycję poziomą i pionową, co jest istotne w zatłoczonych układach, gdzie sąsiednie znaki w przeciwnym razie zlewają się ze sobą.
Co wyniki oznaczają dla dziedzictwa kulturowego
Na standardowym zbiorze danych do wykrywania inskrypcji na kościach ulepszony detektor znacząco poprawia precyzję, czułość i ogólną jakość ramek ograniczających w porównaniu z modelem bazowym, zmniejszając zarówno przeoczenia znaków, jak i fałszywe alarmy wywołane pęknięciami. W połączeniu z klasyfikatorem pełny system Prism-OBI osiąga wysoką wydajność rozpoznawania znaków, jednocześnie przetwarzając około 32 obrazy na sekundę na laptopowym GPU. Wstępne testy jakościowe pokazują nawet, że ten sam detektor, bez ponownego uczenia, potrafi sensownie zlokalizować znaki w innych starożytnych pismach, takich jak inskrypcje na brązach i pismo pieczęciowe, choć do uzyskania najlepszych rezultatów nadal potrzebne jest dopasowanie. Dla osób spoza specjalizacji kluczowa wiadomość jest taka, że Prism-OBI oferuje praktyczną, rozszerzalną ścieżkę do automatycznego odczytywania mocno uszkodzonych tekstów starożytnych. Dzięki wyraźnemu oddzieleniu „gdzie jest pismo?” od „co ono mówi?”, system przekształca zabałaganione, popękane powierzchnie kości w uporządkowany, przeszukiwalny tekst, pomagając historykom i archeologom szybciej i dokładniej badać najwcześniejsze zapisy pisma ludzkości niż kiedykolwiek wcześniej.
Cytowanie: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9
Słowa kluczowe: inskrypcje na kościach wróżebnych, rozpoznawanie pisma starożytnego, uczenie głębokie, cyfryzacja dziedzictwa kulturowego, widzenie komputerowe