Clear Sky Science · sv

Prism-OBI: ett nytt ramverk för igenkänning av orakelbensinskrifter via visuell perception och funktionsavkoppling

· Tillbaka till index

Forntida ledtrådar i spruckna ben

För mer än tretusen år sedan ristade människor i det forntida Kina frågor till gudarna på djurben och sköldpaddsskal och skapade därmed den tidigaste kända kinesiska skriften. Idag är dessa orakelbensinskrifter ovärderliga källor till tidig historia — men de flesta har överlevt endast som slitna, spruckna fragment som är oerhört svåra att tyda, även för experter. Denna artikel presenterar Prism-OBI, ett nytt artificiellt intelligenssystem utformat för att se förbi skadorna, skilja meningsfulla streck från geologiskt brus och hjälpa forskare att låsa upp dessa sköra register i större skala.

Varför gamla ben är svåra att läsa

Orakelben har utsatts för årtusenden under jord, pressats av jordlager, blötts och torkats av växlande väder och spruckit vid utgrävning. Skriften är ofta svag, bruten eller saknas, och benytorna är fulla av sprickor och fläckar som bedrägligt liknar de ristade strecken. Traditionella metoder förlitade sig antingen på experter som mödosamt jämförde varje tecken för hand eller på standardiserad teckenigenkänningsprogramvara byggd för ren, modern tryckt text. Båda strategierna har svårt när ett enda tecken kan vara delat av en spricka, delvis eroderat eller ritat i något olika former av olika skrivare och under olika epoker. Som följd förblir mycket av detta material underutnyttjat, låst bakom svårigheten att helt enkelt avgöra vilket tecken som är vilket.

Att lära datorer att se förbi skadorna

Prism-OBI angriper problemet genom att dela upp igenkänningen i två noggrant koordinerade steg istället för att använda en enda stor end-to-end-modell. I det första steget fokuserar systemet enbart på var tecknen finns på en avgnidning av ett ben, inte på vad de betyder. Innan någon AI analyserar bilden genomgår den en tvåstegs rengöringsprocess som ökar kontrasten och filtrerar bort prickigt skanningsbrus så att strecken framträder tydligare. Den rengjorda avgnidningen förs sedan in i en specialanpassad detektor, baserad på ett snabbt objektdetekteringsnätverk som omarbetats för att vara ”nedbrytningsmedvetet”. Den separerar grova former från fina detaljer, framhäver sannolika streckmönster, tonar ner slumpmässiga sprickor och kombinerar information över flera skalor så att både små och stora tecken kan upptäckas pålitligt. Utdata från detta steg är en uppsättning tajta rutor runt varje misstänkt teckenutdrag.

Figure 1
Figure 1.

Från beskurna tecken till igenkända symboler

I det andra steget skalas varje beskuret teckenutdrag om till en standardkvadrat och matas in i en djup neuralt nätverksklassificerare anpassad från en allmänt använd visionmodell. Denna klassificerare är specialiserad på att skilja åt hundratals subtilt olika tecken i OBC306-datasetet, som innehåller över 300 000 orakelbenstecken i 306 kategorier, var och en kopplad till en modern kinesisk motsvarighet. Eftersom detektorn redan gjort det svåra arbetet med att rengöra och isolera tecknen kan klassificeraren koncentrera sig på fina skillnader i streckform och layout — som små krokar, avbrott eller korsningar — i stället för att kämpa mot bakgrundsbruset i originalavgnidningen. Tester visar att denna kombination av en fokuserad detektor och en kraftfull klassificerare ger högre igenkänningsnoggrannhet än enklare, enkelskedjesystem samtidigt som den fortfarande körs tillräckligt snabbt för nära realtidsbruk.

Figure 2
Figure 2.

Insidan av den nya detektorn

Under huven använder Prism-OBI:s detektor flera skräddarsydda knep för att hantera kraftigt nedbrutna artefakter. En modul delar upp den visuella signalen i lågfrekventa komponenter (övergripande konturer) och högfrekventa komponenter (skarpa kanter) så att modellen kan behandla breda former och känsliga streckspetsar olika, och applicerar sedan uppmärksamhetsmekanismer för att betona konsekventa streckmönster framför slumpmässiga sprickor. En annan modul bygger en pyramid av vyer i olika skalor och lär sig hur mycket den ska lita på varje nivå, vilket förbättrar upptäckten av både mikrotecken och större tecken utan att överväldigas av brus. En tredje modul lär sig att väga funktioner från olika nätverkslager i stället för att enbart stapla dem, vilket hjälper till att bevara informativa signaler samtidigt som opålitliga dämpas. Slutligen kodar detektionsdelen uttryckligen in horisontell och vertikal position, vilket är avgörande i trånga layouter där närliggande tecken annars flyter ihop.

Vad resultaten betyder för kulturarvet

På ett standarddataset för orakelbensdetektion förbättrar den förbättrade detektorn avsevärt precision, återkallning och den övergripande kvaliteten på begränsningsrutor jämfört med basmodellen, vilket minskar både missade tecken och falska larm från sprickor. I kombination med klassificeraren uppnår hela Prism-OBI-ramverket stark teckenigenkänning samtidigt som det bearbetar ungefär 32 bilder per sekund på en laptop-GPU. Tidiga kvalitativa tester visar till och med att samma detektor, utan omträning, kan lokalisera tecken meningsfullt i andra forntida skriftsystem som bronsinskrifter och sigillskrift, även om finjustering fortfarande behövs för bästa resultat. För icke-specialister är huvudpoängen att Prism-OBI erbjuder en praktisk, utbyggbar väg mot automatisk läsning av kraftigt skadade forntida skrifter. Genom att tydligt separera “var finns skriften?” från “vad står det?” förvandlar systemet stökiga, spruckna benuppslag till strukturerad, sökbar text, vilket hjälper historiker och arkeologer att utforska mänsklighetens tidigaste skriftliga källor snabbare och grundligare än tidigare.

Citering: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9

Nyckelord: orakelbensinskrifter, igenkänning av forntida skrift, djupinlärning, digitalisering av kulturarv, datorseende