Clear Sky Science · ru
Prism-OBI: новая система распознавания надписей на костях-оракулах через визуальное восприятие и разделение признаков
Древние подсказки в треснувших костях
Более трёх тысяч лет назад люди в древнем Китае вырезали вопросы богам на животных костях и панцирях черепах, создав самое раннее известное китайское письмо. Сегодня эти надписи на костях-оракулах представляют собой ценные свидетельства ранней истории — но большинство из них дошло до нас в виде стертых, треснувших фрагментов, которые чрезвычайно трудно прочитать даже экспертам. В этой статье представлена Prism-OBI, новая система искусственного интеллекта, разработанная для того, чтобы видеть сквозь повреждения, отделять осмысленные штрихи от геологического шума и помогать исследователям массово расшифровывать эти хрупкие памятники.
Почему старые кости трудно читать
Кости-оракулы выдержали тысячелетия под землёй: их сдавливал грунт, они пропитывались и высыхали под действием погоды, ломались при раскопках. Надписи часто блеклые, изломанные или частично утерянные, а поверхность костей испещрена трещинами и пятнами, которые обманчиво похожи на вырезанные штрихи. Традиционные подходы либо полагались на кропотливую ручную работу экспертов, сравнивающих каждый знак визуально, либо на стандартные системы распознавания символов, созданные для чистого современного печатного текста. Оба подхода испытывают трудности, когда один знак может быть раздроблен трещиной, частично стёрт или нарисован в слегка разных формах разными писцами и в разные эпохи. В результате большая часть материала остается малоиспользуемой, поскольку простой идентификации знаков мешает сама сложность изображения.
Обучение компьютеров видеть сквозь повреждения
Prism-OBI решает эту задачу, разбивая распознавание на два тщательно скоординированных этапа, вместо одного гигантского сквозного решения. На первом этапе система сосредоточена только на том, где находятся символы на оттиске с кости, а не на их значении. До того как ИИ анализирует изображение, двухэтапная очистка повышает контраст и фильтрует точечный шум сканирования, благодаря чему штрихи становятся более заметными. Очищенный оттиск затем поступает в специализированный детектор, основанный на быстрой сети обнаружения объектов и переработанный с учётом «осведомлённости о деградации». Он отделяет крупные формы от тонких деталей, выделяет вероятные шаблоны штрихов, снижает влияние случайных трещин и объединяет информацию с разных масштабов, чтобы надёжно обнаруживать как мелкие, так и крупные символы. На выходе этого этапа получается набор плотных рамок вокруг каждой предполагаемой области с символом. 
От вырезанных фрагментов к распознанным символам
На втором этапе каждый вырезанный фрагмент с символом приводят к стандартному квадратному размеру и передают в глубокую нейронную сеть-классификатор, адаптированную из широко используемой архитектуры для компьютерного зрения. Этот классификатор специализируется на различении сотен тонко отличающихся знаков в датасете OBC306, который содержит свыше 300 000 символов с костей-оракулов по 306 категориям, каждая из которых связана с современным китайским эквивалентом. Поскольку детектор уже выполнил трудную работу по очистке и изоляции символов, классификатор может сосредоточиться на тонких различиях в форме и расположении штрихов — таких как мелкие крючки, разрывы или пересечения — вместо борьбы с фоновым шумом оттиска. Тесты показывают, что сочетание сфокусированного детектора и сильного классификатора даёт более высокую точность распознавания, чем более простые одноэтапные системы, при этом оставаясь достаточно быстрым для работы в режиме близком к реальному времени. 
Внутреннее устройство нового детектора
За кулисами детектор Prism-OBI использует несколько специально подобранных приёмов для работы с сильно деградированными артефактами. Один модуль разделяет визуальный сигнал на низкочастотные составляющие (общие контуры) и высокочастотные (чёткие края), чтобы модель могла по-разному обрабатывать крупные формы и тонкие кончики штрихов, затем применяет механизмы внимания, чтобы подчёркивать согласованные узоры штрихов, а не случайные трещины. Другой модуль строит пирамиду представлений на разных масштабах и обучается оценивать степень доверия к каждому из них, что улучшает обнаружение как крошечных, так и больших символов без перегрузки шумом. Третий модуль обучается взвешивать признаки из разных слоёв сети вместо простого их объединения, что помогает сохранять информативные сигналы и притуплять ненадёжные. Наконец, блок детекции явно кодирует горизонтальное и вертикальное положение, что важно в плотных композициях, где соседние символы иначе сливаются друг с другом.
Что результаты значат для культурного наследия
На стандартном наборе данных для обнаружения надписей на костях-оракулах улучшенный детектор значительно повышает точность, полноту и общее качество ограничивающих рамок по сравнению с базовой моделью, сокращая как пропуски символов, так и ложные срабатывания от трещин. В связке с классификатором полная система Prism-OBI демонстрирует высокое качество распознавания символов, обрабатывая примерно 32 изображения в секунду на ноутбучном GPU. Ранние качественные проверки также показывают, что тот же детектор без дообучения способен осмысленно локализовать символы в других древних письмах, таких как бронзовые надписи и печатный (сейл) шрифт, хотя для наилучших результатов требуется тонкая настройка. Для неспециалистов ключевой вывод таков: Prism-OBI предлагает практичный и расширяемый путь к автоматическому чтению сильно повреждённых древних текстов. Чётко разделяя «где написано?» и «что написано?», система превращает беспорядочные, изломанные поверхности костей в структурированный, ищущийся текст, помогая историкам и археологам быстрее и глубже исследовать раннейшие письменные свидетельства человечества.
Цитирование: Li, J.W., He, J.R., Wu, J.R. et al. Prism-OBI: a novel framework for oracle bone inscription recognition via visual perception and feature decoupling. npj Herit. Sci. 14, 218 (2026). https://doi.org/10.1038/s40494-026-02493-9
Ключевые слова: надписи на костях-оракулах, распознавание древних письмен, глубокое обучение, оцифровка культурного наследия, компьютерное зрение